Claim Missing Document
Check
Articles

Found 2 Documents
Search
Journal : Journal of Software Engineering, Information and Communication Technology

Exploration of Spontaneous Speech Corpus Development in Urban Agriculture Instructional Videos Trisna Gelar; Aprianti Nanda
Journal of Software Engineering, Information and Communication Technology (SEICT) Vol 3, No 1: June 2022
Publisher : Universitas Pendidikan Indonesia (UPI)

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.17509/seict.v3i1.44548

Abstract

Video transcription can be obtained automatically based on the original language translation of the video maker's speech, but the quality of the transcription depends on the quality of the audio signal and the natural voice of the speaker. In this study, Deep Speech is used to predict letters based on acoustic recognition without understanding language rules. The Common Voice multilingual corpus helps Deep Seech to transcribe Indonesian. However, this corpus does not accommodate the special topic of urban agriculture, so an additional corpus is needed to build acoustic and language models with the urban agriculture domain. A total of 15 popular videos with closed captions and nine E-Books with the theme of Horticulture (fruit, vegetables and medicinal plants) were curated. The video data were extracted into audio and transcription according to specifications as training data, while the agricultural text data were transformed into language models, which were used to predict recognition results. The evaluation results show that the number of epochs has an effect on improving the transcription performance. The language model score used during prediction improved WER performance as it interpreted words with agricultural terms. Another finding was that the model was unable to predict short words with informal varieties and located at the end of the sentence.
Klasifikasi Komentar Video Instruksional Populer Bertemakan Pekarangan Perkotaan menggunakan Auto-Keras Trisna Gelar; Aprianti Nanda Sari
Journal of Software Engineering, Information and Communication Technology (SEICT) Vol 1, No 1: December 2020
Publisher : Universitas Pendidikan Indonesia (UPI)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (414.445 KB) | DOI: 10.17509/seict.v1i1.29050

Abstract

Keterbatasan kompetensi menjadi halangan untuk memulai melakukan kegiatan pekarangan perkotaan. Mempraktikkan langkah-langkah pada video instruksional populer di Youtube dari individu maupun profesional dapat meningkatkan kompetensi diri. Namun, kualitas video instruksional(konten, audio dan visual) sangat bervariasi bergantung pada orang yang memproduksinya. Penonton secara langsung dapat berinteraksi dengan memberikan apresiasi (positif maupun negatif), tanggapan atau pertanyaan pada kolom komentar seputar topik yang dipresentasikan. Umpan balik tersebut digunakan untuk memperbaiki kualitas dari video seperti memberikan penjelasan mendalam untuk topik yang sering ditanyakan dan melanjutkan atau menghentikan video berdasarkan topik yang paling disukai atau sebaliknya. Pekerjaan klasifikasi komentar dapat diselesaikan dengan mudah menggunakan Auto-Keras karena proses pemilihan model, pencarian arsitektur neural-network dan evaluasi model terbaik dilakukan secara otomatis. Penelitian pada umumnya terdiri atas empat fase, yaitu (1) pengumpulan dataset, (2) text processing, (3) feature engineering, dan (4) pemodelan dan evaluasi. Pada penelitian ini telah terkumpul 5194 komentar berlabel(aspirasi, pertanyaan, dan pernyataan) dari 5 video instruksional populer bertemakan pekarangan kota yang dikurasi oleh penulis berdasarkan urutan views, likes dan dislikes tertinggi. Kualitas kalimat komentar diperbaiki pada fase persiapan melalui proses text cleaning, normalization, tokenization dan stemming. Pada proses normalization, kamus istilah pertanian menjadi informasi agar tidak tercampur dengan bahasa informal yang mirip. Kalimat komentar yang telah normal dikonversikan menjadi n-gram dan word embedding sebagai input auto-keras. Dari hasil pengujian evaluasi model, akurasi yang dihasilkan auto-keras dengan fitur word embedding mencapai 86.91% sedikit lebih baik dari akurasi fitur n-gram 86.33%.Keterbatasan kompetensi menjadi halangan untuk memulai melakukan kegiatan pekarangan perkotaan. Mempraktikkan langkah-langkah pada video instruksional populer di Youtube dari individu maupun profesional dapat meningkatkan kompetensi diri. Namun, kualitas video instruksional(konten, audio dan visual) sangat bervariasi bergantung pada orang yang memproduksinya. Penonton secara langsung dapat berinteraksi dengan memberikan apresiasi (positif maupun negatif), tanggapan atau pertanyaan pada kolom komentar seputar topik yang dipresentasikan. Umpan balik tersebut digunakan untuk memperbaiki kualitas dari video seperti memberikan penjelasan mendalam untuk topik yang sering ditanyakan dan melanjutkan atau menghentikan video berdasarkan topik yang paling disukai atau sebaliknya. Pekerjaan klasifikasi komentar dapat diselesaikan dengan mudah menggunakan Auto-Keras karena proses pemilihan model, pencarian arsitektur neural-network dan evaluasi model terbaik dilakukan secara otomatis. Penelitian pada umumnya terdiri atas empat fase, yaitu (1) pengumpulan dataset, (2) text processing, (3) feature engineering, dan (4) pemodelan dan evaluasi. Pada penelitian ini telah terkumpul 5194 komentar berlabel(aspirasi, pertanyaan, dan pernyataan) dari 5 video instruksional populer bertemakan pekarangan kota yang dikurasi oleh penulis berdasarkan urutan views, likes dan dislikes tertinggi. Kualitas kalimat komentar diperbaiki pada fase persiapan melalui proses text cleaning, normalization, tokenization dan stemming. Pada proses normalization, kamus istilah pertanian menjadi informasi agar tidak tercampur dengan bahasa informal yang mirip. Kalimat komentar yang telah normal dikonversikan menjadi n-gram dan word embedding sebagai input auto-keras. Dari hasil pengujian evaluasi model, akurasi yang dihasilkan auto-keras dengan fitur word embedding mencapai 86.91% sedikit lebih baik dari akurasi fitur n-gram 86.33%.