Digitalisasi dokumen dapat dipercepat berkat kemajuan teknologi. Banyak upaya telah dilakukan untuk mengenali teks dari foto. Banyak arsitektur mampu mengenali teks, khususnya citra tulisan tangan salah satunya adalah transformer. Pada penelitian sebelumnya masih banyak yang menggunakan dataset citra dengan aksara tegak sehingga kurang variatif. Untuk meningkatkan keahlian pemodelan pembelajaran, proyek ini berfokus pada pengimplementasian dan pengembangan sistem pada Transformers dengan pengujian dataset yang lebih bervariasi.Dataset yang digunakan terdiri dari foto dengan tulisan Indonesia. setelah langkah pra-pemrosesan kemudian akan diubah menjadi token dengan label kelas dan koordinat kotak pembatas untuk anotasi gambar. Dataset akan dilatih menggunakan arsitektur transformer. Encoder-decoder merupakan dasar dari arsitektur Transformer ini. Pengujian data dilakukan setelah model dilatih menggunakan mean Average Precision (mAP).Sistem yang dibuat mampu mengenali dan mengklasifikasikan objek secara akurat dari data gambar tulisan tangan, termasuk objek yang mewakili kata-kata bahasa Indonesia. Hyperparameter yang paling optimal didapatkan batch dan jumlah epoch masing-masing 32 dan 40. Dengan menggunakan parameter terbaik, evaluasi model menghasilkan data dari sampel latih dan uji dengan masing-masing nilai mAP 0,97 dan 0,95.
Copyrights © 2024