Garuda - Garba Rujukan Digital

Article Per Year (5 Year)

p-Index From 2021 - 2026

0.23

P-Index

This Author published in this journals

All Journal Decode: Jurnal Pendidikan Teknologi Informasi

Zulkarnain, Achmad Rizky

Unknown Affiliation

Author-ID : 8216134

Computer Science & IT Control & Systems Engineering Education Languange, Linguistic, Communication & Media Other

Published : 1 Documents Claim Missing Document

Claim Missing Document

Articles

Perbandingan Algoritma Transformer Dengan Bi-Long Short-Term Memory Untuk Speech-To-Text Zulkarnain, Achmad Rizky; Rivan, Muhammad Ezar Al
Decode: Jurnal Pendidikan Teknologi Informasi Vol. 6 No. 1: MARET 2026
Publisher : Program Studi Pendidikan Teknologi Infromasi UMK

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.51454/decode.v6i1.1563

Penelitian ini bertujuan untuk membandingkan kinerja dua arsitektur Speech-to-Text, yaitu Bidirectional Long Short-Term Memory (BiLSTM) dan Transformer, dengan menggunakan dua jenis ekstraksi fitur akustik, yaitu Log-Mel Spectrogram dan Filterbank Energies (FBANK). Perbandingan ini dilakukan untuk menganalisis pengaruh kesesuaian antara arsitektur model dan representasi fitur terhadap performa sistem pengenalan suara otomatis. Pemilihan kedua arsitektur didasarkan pada perbedaan mekanisme pemrosesan sekuens, di mana BiLSTM memproses data secara dua arah untuk menangkap konteks temporal dari masa lalu dan masa depan, sedangkan Transformer memanfaatkan mekanisme self-attention yang mampu memproses keseluruhan urutan data secara paralel dan memahami konteks global. Kebaruan penelitian ini terletak pada evaluasi perbandingan yang dilakukan secara konsisten antara model BiLSTM dan Transformer dengan skema ekstraksi fitur yang digunakan agar menemukan kecocokan antara model dengan ekstraksi fitur, dengan tokenisasi yang sudah disesuaikan untuk masing-masing arsitektur, yaitu tokenisasi word-level pada BiLSTM dan tokenisasi sub-word berbasis SentencePiece pada Transformer, sehingga memberikan analisis kuantitatif yang lebih objektif terhadap pengaruh kesesuaian antara model dan jenis fitur akustik. Penelitian ini menggunakan pendekatan eksperimen kuantitatif dengan dataset LibriSpeech sebagai dataset utama. Proses penelitian meliputi ekstraksi fitur audio, pelatihan model menggunakan fungsi loss Connectionist Temporal Classification (CTC) dan optimizer Adam, serta evaluasi performa menggunakan metrik Word Error Rate (WER) dan Character Error Rate (CER). Hasil eksperimen menunjukkan bahwa pemilihan arsitektur model dan jenis fitur akustik memberikan pengaruh yang nyata terhadap performa sistem. Model BiLSTM menghasilkan performa yang lebih stabil pada seluruh kombinasi fitur, dengan nilai WER sekitar 29% pada subset test-clean dan berkisar antara 53%–55% pada subset test-other. Sementara itu, model Transformer menunjukkan performa terbaik ketika dipadukan dengan fitur Log-Mel Spectrogram, namun mengalami peningkatan WER yang signifikan saat menggunakan fitur FBANK.. Hasil yang sudah dijelaskan tadi menunjukkan bahwa kesesuaian antara arsitektur model dan jenis fitur sangat mempengaruhi kualitas transkripsi.

Co-Authors M Ezar Al Rivan

Title

Found 1 Documents
Search

Abstract

Title Search

Found 1 Documents Search

Abstract

Title

Found 1 Documents
Search