Deteksi stres melalui sinyal suara masih menghadapi tantangan akurasi karena keterbatasan model konvensional dalam menangkap distribusi frekuensi spasial-temporal. Oleh karena itu, diperlukan pendekatan baru yang mampu mengekstraksi pola kompleks secara efektif. Artikel ini mengeksplorasi peningkatan performa deteksi stres melalui sinyal suara dengan mengintegrasikan model Convolutional Neural Network (CNN) dan Transformer Encoder. Kami mengevaluasi berbagai konfigurasi jumlah head pada self-attention dan nilai learning rate untuk model CNN-Transformer Encoder guna mengidentifikasi parameter optimal. Hasil eksperimen menunjukkan bahwa konfigurasi dengan 6 head pada Transformer Encoder dan learning rate 0,01 memberikan performa terbaik dengan nilai loss terendah sebesar 0,5034, akurasi tertinggi 78,37%, serta peningkatan pada precision, recall, dan F1-score. Selain itu, penggabungan model CNN dengan Transformer Encoder secara paralel secara signifikan meningkatkan akurasi deteksi stres dibandingkan dengan model baseline CNN dan DSCNN. Pengujian lebih lanjut menggunakan confusion matrix menunjukkan keunggulan model DSCNN-Transformer Encoder dalam mendeteksi kelas stres dengan akurasi tertinggi. Pengujian pada dataset yang berbeda juga menunjukkan bahwa model yang diusulkan memiliki kestabilan yang baik. Temuan ini menegaskan efektivitas integrasi Transformer Encoder dalam meningkatkan performa deteksi stres pada sinyal suara. Abstract Stress detection through speech signals still faces accuracy challenges due to the limitations of conventional models in capturing spatial-temporal frequency distributions. Therefore, new approaches are needed that can effectively extract complex patterns. This study explores enhancing stress detection performance through speech signals by integrating Convolutional Neural Network (CNN) and Transformer Encoder models. We evaluated various configurations of self-attention head counts and learning rates for the CNN-Transformer Encoder model to identify optimal parameters. Experimental results indicate that a configuration with 6 heads in the Transformer Encoder and a learning rate of 0.01 yields the best performance with the lowest loss of 0.5034, highest accuracy of 78.37%, and improvements in precision, recall, and F1-score. Furthermore, the parallel integration of CNN with Transformer Encoder significantly improves stress detection accuracy compared to baseline CNN and DSCNN models. Further analysis using confusion matrices highlights the superior performance of the DSCNN-Transformer Encoder model in detecting stress classes with the highest accuracy. These findings affirm the effectiveness of integrating Transformer Encoder in enhancing stress detection performance from voice signals.
Copyrights © 2026