Identifikasi hama secara manual pada sektor pertanian seringkali tidak efisien dan dapat menyebabkan kerugian panen yang signifikan. Penelitian ini bertujuan untuk menerapkan dan mengevaluasi arsitektur modern Vision Transformer (ViT) dan Swin Transformer untuk klasifikasi hama yang efisien, dengan fokus pada optimasi model melalui pruning. Menggunakan dataset IP102, kedua model dioptimalkan melalui alur kerja sparse training, diikuti pruning (0-30%), dan diakhiri dengan fine-tuning. Hasil menunjukkan ViT mencapai akurasi puncak (72,95%), namun dengan biaya komputasi tinggi pada kondisi awal. Sebaliknya, Swin Transformer menunjukkan keseimbangan terbaik; proses pruning tidak hanya mengurangi parameter hingga ~30% dan waktu pelatihan hingga 80,5%, tetapi juga meningkatkan akurasinya menjadi 70,52%. Swin Transformer juga secara inheren memiliki kecepatan inferensi yang jauh lebih unggul (~45 detik). Swin Transformer yang dioptimalkan dengan pruning 25-30% direkomendasikan sebagai solusi paling praktis untuk aplikasi di dunia nyata, karena menawarkan keseimbangan superior antara akurasi, kecepatan inferensi, dan efisiensi sumber daya.
Copyrights © 2025