Telah banyak penelitian tentang pengenalan emosi suara dengan akurasi yang berbeda-beda. Hal tersebut disebabkan oleh dataset, fitur-fitur, dan model klasifikasi yang digunakan. Hal yang paling mempengaruhi tingkat akurasi pengenalan emosi suara adalah fitur-fitur yang digunakan. Sehingga pada penelitian ini dilakukan eksplorasi terhadap kombinasi kombinasi fitur-fitur spektral dan bagaimana pengaruhnya terhadap akurasi dari pengenalan emosi suara. Kombinasi fitur yang digunakan adalah fitur-fitur spektral low level descriptor yaitu mel-frequency cepstral coefficient (mfcc), chroma, mel-spectrogram, spectral contrast, spectral bandwidth, dan tonnetz, dan fitur-fitur high-statistical function (HSF), yaitu mean, standar deviasi, jangkauan interkuartil, skewness, dan kurtosis dari fitur-fitur LLD sebelumnya. Model yang digunakan adalah long short-term memory (LSTM). Hasil yang didapatkan adalah dari keseluruhan percobaan kombinasi fitur LLD dan HSF, fitur mfcc dan spectral contrast memberikan nilai akurasi dan UAR tertinggi. Jika fitur mfcc ini dihilangkan maka nilai akurasi dan UAR akan turun secara signifikan. Selain itu penelitian ini memberikan bukti bahwa semakin banyak fitur yang digunakan tidak selalu memberikan hasil akurasi dan UAR yang baik. Namun yang paling mempengaruhi adalah fitur apa yang digunakan, bukan seberapa banyak fitur yang digunakan.
Copyrights © 2023