Terdapat 217 juta orang yang tergolong Mild to Severe Visual Impairment (MSVI) yang membuat pengeliahatan mereka sangat terganggu. Tetapi orang tunanetra juga perlu melakukan aktivitas sehari-hari yang tetap perlu mengetahui keadaan atau pemandangan sekitar. Tetapi tidak mudah bagi orang tunanetra untuk mendapatkan informasi mengenai pemandangan sekitarnya tanpa bantuan orang lain. Salah satu metode untuk menyelesaikan masalah ini adalah dengan menggunakan Image Captioning yaitu sistem yang dapat mendeskripsikan sebuah foto menggunakan Natural Language Processing. Reflective Decoding Network adalah model untuk image captioning yang dapat membuat caption pada foto dengan tingkat metric METEOR yang bagus. Adanya sistem ini dapat membantu orang tunanetra untuk mendengarkan deskripsi pemandangan tanpa perlu mencari bantuan orang lain untuk mendeskripsikan pemandangan itu sendiri. Reflective Decoding Network ini berhasil diimplementasikan ke dalam aplikasi berbasis iOS dimana pengguna dapat mengambil gambar dan aplikasi mengeluarkan deskripsi dalam bentuk suara menggunakan library AVSpeechSynthesizer. Sistem ini bekerja dengan mengirim gambar yang diambil atau diupload dari aplikasi ke sebuah server yang memiliki model image captioning sebagai pembuat deskripsi gambar. Deskripsi tersebut lalu akan dikirimkan kembali ke aplikasi dan diubah kedalam bentuk suara. Model Reflective Decoding Network pada sistem ini memiliki nilai METEOR 20,1%. Objek deteksi pada sistem memiliki akurasi paling bagus di pencahayaan pagi dengan akurasi 53,9% dan jarak deteksi terjauh 20 meter.
Copyrights © 2024