Decode: Jurnal Pendidikan Teknologi Informasi
Vol. 6 No. 1: MARET 2026

Perbandingan Algoritma Transformer Dengan Bi-Long Short-Term Memory Untuk Speech-To-Text

Zulkarnain, Achmad Rizky (Unknown)
Rivan, Muhammad Ezar Al (Unknown)



Article Info

Publish Date
24 Feb 2026

Abstract

Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur Speech-to-Text, yaitu Bidirectional Long Short-Term Memory (BiLSTM) dan Transformer, dengan menggunakan dua jenis ekstraksi fitur akustik, yaitu Log-Mel Spectrogram dan Filterbank Energies (FBANK). Perbandingan ini dilakukan untuk menganalisis pengaruh kesesuaian antara arsitektur model dan representasi fitur terhadap performa sistem pengenalan suara otomatis. Pemilihan kedua arsitektur didasarkan pada perbedaan mekanisme pemrosesan sekuens, di mana BiLSTM memproses data secara dua arah untuk menangkap konteks temporal dari masa lalu dan masa depan, sedangkan Transformer memanfaatkan mekanisme self-attention yang mampu memproses keseluruhan urutan data secara paralel dan memahami konteks global. Kebaruan penelitian ini terletak pada evaluasi perbandingan yang dilakukan secara konsisten antara model BiLSTM dan Transformer dengan skema ekstraksi fitur yang digunakan agar menemukan kecocokan antara model dengan ekstraksi fitur, dengan tokenisasi yang sudah disesuaikan untuk masing-masing arsitektur, yaitu tokenisasi word-level pada BiLSTM dan tokenisasi sub-word berbasis SentencePiece pada Transformer, sehingga memberikan analisis kuantitatif yang lebih objektif terhadap pengaruh kesesuaian antara model dan jenis fitur akustik. Penelitian ini menggunakan pendekatan eksperimen kuantitatif dengan dataset LibriSpeech sebagai dataset utama. Proses penelitian meliputi ekstraksi fitur audio, pelatihan model menggunakan fungsi loss Connectionist Temporal Classification (CTC) dan optimizer Adam, serta evaluasi performa menggunakan metrik Word Error Rate (WER) dan Character Error Rate (CER). Hasil eksperimen menunjukkan bahwa pemilihan arsitektur model dan jenis fitur akustik memberikan pengaruh yang nyata terhadap performa sistem. Model BiLSTM menghasilkan performa yang lebih stabil pada seluruh kombinasi fitur, dengan nilai WER sekitar 29% pada subset test-clean dan berkisar antara 53%–55% pada subset test-other. Sementara itu, model Transformer menunjukkan performa terbaik ketika dipadukan dengan fitur Log-Mel Spectrogram, namun mengalami peningkatan WER yang signifikan saat menggunakan fitur FBANK.. Hasil yang sudah dijelaskan tadi menunjukkan bahwa kesesuaian antara arsitektur model dan jenis fitur sangat mempengaruhi kualitas transkripsi.

Copyrights © 2026






Journal Info

Abbrev

decode

Publisher

Subject

Computer Science & IT Control & Systems Engineering Education Languange, Linguistic, Communication & Media Other

Description

DECODE: Jurnal Pendidikan Teknologi Informasi publishes articles in English and Indonesian which will be published 3 times a year, namely March, July and November. Articles that can be considered for publication in this journal are the results of research that is in accordance with the focus and ...