Voteteknika (Vocational Teknik Elektronika dan Informatika)
Vol 11, No 4 (2023): Vol. 11, No 4, Desember 2023

Penerapan Optical Character Recognition (OCR) Dengan Text-To-Speech (TTS) dalam Konversi Gambar ke Suara

Prabowo Budi Utomo (Akademi Komunitas Negeri Putra Sang Fajar Blitar)
Ibnu Mas'ud Luthfi (STAI At-Tahdzib Jombang)
M. Nur Fu'ad (Akademi Komunitas Negeri Putra Sang Fajar Blitar)
M. Mujiono - (Akademi Komunitas Negeri Putra Sang Fajar Blitar)



Article Info

Publish Date
02 Dec 2023

Abstract

Aksesibilitas informasi menjadi perhatian utama untuk memastikan bahwa semua individu dapat mengakses dan memahami konten secara maksimal Gangguan penglihatan menjadi salah satu disabilitas atau kekurangan yang cukup banyak dialami oleh orang Indonesia yang dalam perkembangannya menimbulkan berbagai masalah sebagai akibat dari kekurangan yang dimiliki salah satunya adalah aksebilitas informasi. Penelitian ini secara tidak langsung output yang dihasilkan merupakan hasil pengabungan dari menggunakan Optical Character Recognition dengan konversi representasi Vector Quantized Variational Autoencoder dengan pengubah suara Text-to-Speech dari google (gTTS) yang dilakukan sebagai upaya untuk menghasilkan kualitas suara yang lebih baik dan alami serta mempertahankan informasi asli. Hasil pengujian dalam penelitian diperoleh akurasi konversi dan pengubahan sebanyak 83,33% dengan 10 data uji dapat dikonversi dan diubah dengan baik dan cukup efektif dalam mempertahankan informasi asli dan menghasilkan suara natural.Kata kunci : Akses Informasi; Gangguan Penglihatan; OCR; VQ-VAE; gTTS; Machine Learning Accessibility to information is a major concern to ensure that all individuals can access and understand content to the fullest. Impaired vision is one of the disabilities or deficiencies experienced by quite a lot of Indonesians, which in its development creates various problems as a result of the deficiencies they have, one of which is information accessibility. This research indirectly produces the output that is the result of a combination of using Optical Character Recognition with the conversion of the Vector Quantized Variational Autoencoder representation with the Text-to-Speech voice modifier from Google (gTTS) which is carried out as an effort to produce better and more natural voice quality and retain original information. The test results in this study obtained an accuracy of conversion and conversion of 83.33% with 10 test data that can be converted and changed properly and are quite effective in retaining original information and producing natural sound. Keywords: Information Access; Visual Impairment; OCR; VQ-VAE; gTTS; Machine Learning

Copyrights © 2023






Journal Info

Abbrev

voteknika

Publisher

Subject

Computer Science & IT Control & Systems Engineering Education Electrical & Electronics Engineering

Description

Jurnal Vocational Teknik Elektronika dan Informatika (VoteTEKNIKA) is a peer-reviewed, scientifc journal published by Department of Electronics Engineering, Faculty of Engineering, Universitas Negeri Padang, Indonesia. The aim of this journal is to publish articles dedicated to all aspects of the ...