Penelitian ini bertujuan untuk mengembangkan sistem pendeteksian dini stunting berbasis citra tubuh balita menggunakan arsitektur Vision Transformer (ViT). Dataset terdiri atas 2.156 citra tubuh balita yang terbagi dalam tiga subset: pelatihan, validasi, dan pengujian. Citra dipraproses melalui konversi ke RGB, pengubahan ukuran menjadi 224×224 piksel, serta normalisasi menggunakan ViTImageProcessor. Model ViT-base dilatih selama lima epoch menggunakan optimizer AdamW dan batch size 8. Evaluasi dilakukan menggunakan confusion matrix dan classification report. Hasil evaluasi menunjukkan akurasi model sebesar 98%, dengan precision dan recall rata-rata masing-masing sebesar 0,98. Visualisasi attention map ditampilkan melalui antarmuka Gradio untuk menunjukkan area fokus model dalam proses klasifikasi. Sistem ini memberikan solusi alternatif pendeteksian stunting yang efisien, interpretatif, dan aplikatif, terutama untuk wilayah yang minim akses terhadap alat ukur dan tenaga medis. Hasil penelitian menunjukkan bahwa ViT memiliki performa unggul dalam klasifikasi citra tubuh balita dan berpotensi untuk diterapkan dalam deteksi status gizi secara otomatis dan adaptif.
Copyrights © 2025