Mahesa Tirta Panjalu
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Pembacaan Gerak Bibir Menggunakan Cnn, Bi-Lstm Dan Ctc Loss Function Pada Dataset Bahasa Inggris Wisudawati, Lulu Mawaddah; Mahesa Tirta Panjalu
Jurnal Ilmiah Komputasi Vol. 24 No. 1 (2025): Jurnal Ilmiah Komputasi : Vol. 24 No 1, Maret 2025
Publisher : Lembaga Penelitian dan Pengabdian Kepada Masyarakat

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.32409/jikstik.24.1.3658

Abstract

Tunarungu adalah orang yang mengalami gangguan pendengaran. Dampak utama dari kondisi ini adalah hambatan dalam komunikasi verbal atau lisan, sehingga menyulitkan komunikasi dengan orang yang mendengar. Bagian bibir adalah bagian yang biasa digunakan untuk berbicara atau berkomunikasi. Gerakan bibir saat berkomunikasi akan menghasilkan gerakan yang berbeda-beda setiap kata atau huruf yang diucapkan. Bibir dapat digunakan untuk memprediksi kata dari gerak bibir yang akan terdeteksi saat berbicara. Teknologi yang semakin berkembang dapat membantu permasalahan tersebut dalam membaca gerak bibir. Convolutional Neural Network atau CNN telah berkembang pesat dan menjadi salah satu metode yang paling populer dalam bidang pengenalan citra dan pemrosesan video karena kemampuannya untuk secara otomatis mempelajari fitur dari data masukan. Penelitian ini bertujuan melakukan pembacaan gerak bibir menggunakan metode CNN, Long Short-Term Memory (LSTM) dan Connectionist Temporal Classification (CTC) dalam bahasa inggris. Penelitian ini menggunakan dataset dariĀ  The Grid audiovisual sentence corpus sebanyak 1000 video dan 1000 teks. Pada tahapan preprocessing terdiri dari dua bagian yaitu preprocessing video dan preprocessing teks. Tahapan preprocessing video meliputi konversi grayscale, cropping frame, augmentasi dan normalisasi. Tahapan preprocessing teks dilakukan proses encoding pada dataset alignments. Tahapan klasifikasi menggunakan metode Convolutional Neural Networks, Long Short-Term Memory dan Connectionist Temporal Classification Loss Function. Hasil evaluasi mendapatkan nilai akurasi terbaik sebesar 96,9%, Word Error Rate (WER) sebesar 0,66%, dan Character Error Rate (CER) sebesar 0,16% dengan menggunakan model yang dengan skenario data 80:20 dan batch size 2.