Teknika
Vol. 19 No. 3 (2025): Teknika September 2025

Text to Speech Bahasa Jawa dialek Solo-Jogja dengan Metode VITS

Wirdiani, Putri Syakira (Unknown)
Fikry, Muhammad (Unknown)
Yusra, Yusra (Unknown)
Yanto, Febi (Unknown)
Pizaini, Pizaini (Unknown)



Article Info

Publish Date
22 Jul 2025

Abstract

Pengembangan TTS di Indonesia masih berfokus pada Bahasa Indonesia dan bahasa asing, sementara bahasa daerah seperti Jawa dialek Solo-Jogja belum banyak tersentuh, padahal memiliki banyak penutur dan nilai budaya tinggi. Penelitian ini mengembangkan model TTS untuk dialek tersebut menggunakan metode Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (VITS). Metode ini dipilih karena kemampuannya mengintegrasikan inferensi variasional, aliran normalisasi, dan pelatihan adversarial secara end-to-end, sehingga menghasilkan suara sintetis dengan kualitas lebih alami. Dataset berisi 450 pasangan teks dan audio dari penutur asli, dibersihkan manual dan disusun dalam format LJSpeech. Sebanyak 428 data digunakan untuk pelatihan dan 22 untuk evaluasi. Model dilatih menggunakan Coqui TTS di Google Colab dengan fonemizer eSpeak. Setelah pelatihan, model terbaik digunakan untuk menyintesis 50 kalimat uji yang dinilai oleh lima penutur asli menggunakan metode MOS. Rata-rata skor yang diperoleh adalah 4,088, melampaui standar minimum 4,0. Meski begitu, masih ada kekurangan dalam kejelasan fonem dan kealamian jeda. Hasil ini menunjukkan potensi besar TTS untuk pelestarian bahasa daerah dan pengembangan teknologi serupa untuk bahasa lokal lainnya.

Copyrights © 2025