Claim Missing Document
Check
Articles

Found 1 Documents
Search

Konversi Prompt Ke Suara Berbahasa Indonesia Waludi, Ikbal; Novanto Yudistira; Achmad Basuki
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol 9 No 5 (2025): Mei 2025
Publisher : Fakultas Ilmu Komputer (FILKOM), Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Sintesis suara berbasis teks (Text-to-Speech/TTS) merupakan teknologi penting dalam pengembangan interaksi manusia dan mesin. Tacotron 2, sebagai model deep learning yang mampu menghasilkan suara alami dari teks, memiliki potensi besar untuk berbagai aplikasi berbasis suara, termasuk dalam Bahasa Indonesia. Namun, pengembangan sistem TTS untuk Bahasa Indonesia masih menghadapi tantangan, terutama terkait dengan keterbatasan ketersediaan dataset ujaran yang berkualitas tinggi dan representatif. Penelitian ini bertujuan untuk mengumpulkan dan memproses dataset audio serta transkripsi Bahasa Indonesia, melatih model Tacotron 2, dan mengevaluasi kualitas suara yang dihasilkan. Evaluasi dilakukan secara objektif menggunakan metode Perceptual Evaluation of Speech Quality (PESQ), yang menilai kejelasan, intonasi, dan kealamian suara hasil sintesis berdasarkan model persepsi manusia. Hasil penelitian menunjukkan bahwa model Tacotron 2 yang dilatih menggunakan dataset manual dan semi-manual memperoleh skor PESQ rata-rata tertinggi sebesar 1,230 serta memiliki nilai validation loss yang lebih stabil dibandingkan dengan model berbasis dataset otomatis. Temuan ini menegaskan pentingnya kualitas dataset dalam pengembangan sistem TTS. Penelitian ini diharapkan dapat mendukung pengembangan sistem TTS Bahasa Indonesia yang lebih baik, terutama untuk aplikasi seperti asisten virtual dan teknologi aksesibilitas.