Meningkatnya volume transaksi digital dan kebutuhan otomatisasi pemrosesan dokumen, terutama dokumen semi-struktural seperti struk pembelian, maka diperlukan sistem cerdas yang mampu mengekstraksi informasi penting secara otomatis dan efisien. Namun, dokumen semacam ini umumnya memiliki format visual yang tidak konsisten, informasi numerik yang kompleks, dan tata letak tidak terstruktur, sehingga menimbulkan tantangan besar dalam proses ekstraksi informasi berbasis Optical Character Recognition (OCR) konvensional. Untuk menjawab tantangan tersebut, penelitian ini mengembangkan dan mengevaluasi sistem Visual Question Answering (VQA) berbasis Large Language Model (LLM) multimodal untuk mendeteksi dan memahami isi struk pembelian secara menyeluruh. Beberapa model VQA mutakhir seperti MiniCPM-v2.6, LLaMA-3, DeepSeek-VL2, LLaVA, dan BLIP-2 diuji menggunakan prompt engine multifungsi yang dirancang secara sistematis. Evaluasi dilakukan menggunakan metrik BERT Cosine Accuracy (BCA) untuk mengukur kesesuaian semantik antara jawaban model dan jawaban aktual, serta waktu inferensi sebagai indikator efisiensi eksekusi. Hasil menunjukkan bahwa MiniCPM-v2.6 unggul dengan rata-rata BCA sebesar 97,68% dan waktu eksekusi tercepat sekitar 5,51 menit. Dengan keunggulan ini, MiniCPM-v2.6 direkomendasikan sebagai model yang paling efisien dan akurat untuk sistem VQA berbasis dokumen semi-struktural, khususnya untuk implementasi dalam perangkat edge atau sistem kasir cerdas.
Copyrights © 2025