Penelitian ini bertujuan untuk mengembangkan sistem Speech Emotion Recognition (SER) berbasis deep learning yang mampu mengenali emosi suara dan mengimplementasikannya pada sebuah game interaktif menggunakan Unity. Model SER dibangun dengan memanfaatkan arsitektur Wav2Vec 2.0 yang telah dipra-latih (pretrained) dan dilakukan fine-tuning menggunakan dataset CREMA-D dengan empat kelas emosi, yaitu angry, happy, neutral, dan sad. Data dibagi dengan rasio 80% untuk pelatihan dan 20% untuk validasi. Hasil pengujian menunjukkan bahwa model mampu mencapai nilai akurasi validasi maksimum sebesar 78–79% dengan weighted F1-score sebesar 0,79. Analisis confusion matrix memperlihatkan bahwa kelas angry memiliki tingkat pengenalan tertinggi, sementara kesalahan klasifikasi paling sering terjadi antara kelas neutral dan sad akibat kemiripan karakteristik prosodi. Model yang telah dilatih kemudian diekspor ke format ONNX dan berhasil diintegrasikan ke dalam game Unity untuk mendeteksi emosi suara pemain secara real-time. Hasil implementasi menunjukkan bahwa sistem mampu memberikan respons karakter yang adaptif berdasarkan emosi suara pengguna, sehingga meningkatkan interaksi dalam permainan.
Copyrights © 2026