FARIDH, MUHAMMAD HILMI
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

HiVAD : A Voice Activity Detection Application Based on Deep Learning FARIDH, MUHAMMAD HILMI; ZULPRATITA, ULIL SURTIA
ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika Vol 9, No 4: Published October 2021
Publisher : Institut Teknologi Nasional, Bandung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26760/elkomika.v9i4.856

Abstract

ABSTRAKDalam tulisan ini, deteksi aktivitas suara disajikan pada smartphone secara realtime dengan jaringan saraf konvolusional. Pengurangan waktu komputasi adalah masalah dari studi sebelumnya. Meskipun telah menggunakan pendekatan machine learning, masih banyak kekurangan dari penelitian sebelumnya. Citra sinyal suara dihasikan oleh spektrogram energi log-mel, kemudian citra sinyal suara diinputkan ke dalam deep learning CNN untuk mengklasifikasi suara manusia dan derau. HiVAD mengungguli persentase metode VAD lainnya yaitu G729B, Sohn, dan RF dari hasil tes yang ditunjukkan dengan akurasi rata-rata SHR sebesar 15,89%, 28,98%, 42,13% pada tingkat 0dB, 8,67%, 16,29%, 17,63% pada tingkat 5 dB, dan 1,35%, 7,72%, 5,14% pada tingkat 10 dB. Selain itu, mekanisme Multi-threading memungkinkan komputasi yang efisien untuk waktu secara realtime. Penelitian ini menunjukkan bahwa arsitektur CNN pada HiVAD secara signifikan meningkatkan akurasi deteksi aktivitas suara.Kata kunci: aplikasi VAD, voice detection, deep learning, CNN ABSTRACTIn this paper, the detection of sound activity is presented on smartphones in realtime with convolutional neural networks. Reduced computing time is a problem from previous studies. Despite the use of machine learning approaches, there are still many shortcomings from previous research. A log-mel energy spectrogram narrates the sound signal image. Then the sound signal image is inputted into CNN's deep learning to classify the human voice and noise. HiVAD outperformed the percentage of other VAD methods, namely G729B, Sohn, and RF from the test results shown with an average SHR accuracy of 15.89%, 28.98%, 42.13% at 0dB, 8.67%, 16.29% ,17.63% at 5 dB, and 1.35%, 7.72%, 5.14% at 10 dB. In addition, the Multi-threading mechanism enables efficient computing for real-time. This study shows that CNN's architecture on HiVAD significantly improves the accuracy of sound activity detection.Keywords: VAD App, voice detection, deep learning, CNN