Speech Emotion Recognition (SER) merupakan teknologi yang bertujuan untuk mengenali kondisi emosional seseorang berdasarkan sinyal suara. Seiring dengan kemajuan dalam bidang machine learning dan deep learning, akurasi dan efisiensi sistem SER semakin meningkat melalui penggunaan fitur akustik canggih seperti MFCC, GFCC, BFCC, Cochleagram, dan Hilbert Spectrum. Penelitian ini menganalisis pendekatan teknis yang digunakan dalam pengembangan SER berdasarkan studi literatur dari lima artikel ilmiah terpilih. Hasil kajian menunjukkan bahwa kombinasi CNN dengan attention mechanism, serta penerapan auto-encoder untuk reduksi dimensi, mampu meningkatkan performa klasifikasi emosi secara signifikan. Selain itu, implementasi sistem SER pada perangkat portabel seperti Raspberry Pi menunjukkan potensi besar dalam pemantauan psikologis berbasis suara. Namun, aspek keamanan masih menjadi tantangan serius, terutama dalam mendeteksi suara palsu atau hasil sintesis. Oleh karena itu, pengembangan SER masa depan perlu memperhatikan integrasi antara akurasi teknis, efisiensi komputasi, keamanan digital, serta aspek etika dan privasi pengguna.
Copyrights © 2025