Progresif: Jurnal Ilmiah Komputer
Vol 21, No 2: Agustus 2025

Analisis Komparatif Unjuk Kerja Model Vision Transformers Dengan ConvNeXt Dalam Rekognisi Citra Warangka Keris Bali

Yuniari, Ni Putu Widya (Universitas Warmadewa)
Pradnya Dana, Gde Wikan (Universitas Warmadewa)
Darma, I Gede Wira (Universitas Warmadewa)



Article Info

Publish Date
26 Aug 2025

Abstract

The application of attention mechanisms in image recognition has emerged as a new paradigm in computer vision, serving as a foundational approach in generative AI. Two state-of-the-art models frequently referenced in recent studies are Vision Transformers (ViT), introduced by Google, and ConvNeXt, developed by Meta (Facebook) AI Research. However, their application in recognizing local cultural imagery, such as the warangka (sheath) of the Balinese keris, remains highly limited. The urgency of this study lies in evaluating the effectiveness of AI models in supporting technology-based cultural preservation. This study aims to compare the unjuk kerjance of these two models in handling the classification and recognition of warangka keris (Balinese kris sheaths). The methodology involves data augmentation, feature extraction, patch processing (for ViT), model construction, evaluation, and image recognition analysis using Grad-CAM. The dataset comprises a combination of primary and secondary sources. Primary data were collected through field visits to kris-making workshops in Bali, while secondary data were obtained from previous studies. The kris sheath image classes used in this study include: 'Sesrengatan', 'Kojongan', 'Batun Poh', 'Kekandikan', and 'Beblatungan'. The study successfully developed image classification models, achieving an accuracy of 82% with the ViT model and 97% with the ConvNeXt model. The recognition process effectively highlighted the most significant regions of each image, providing valuable insight for future generative AI research.Keywords: Attention, ConvNeXt, Keris Bali, Vision Transformers AbstrakPenerapan attention dalam rekognisi citra menjadi pendekatan baru dalam pengenalan gambar dan berpotensi menjadi benchmark dalam pengembangan kecerdasan buatan generatif. Dua model terkini yang banyak diteliti adalah Vision Transformers (ViT) dari Google dan ConvNeXt dari Meta AI. Namun, penerapan keduanya dalam pengenalan citra budaya lokal seperti warangka keris Bali masih sangat terbatas. Urgensi penelitian ini terletak pada upaya mengevaluasi efektivitas model kecerdasan buatan dalam mendukung pelestarian budaya berbasis teknologi. Penelitian ini bertujuan untuk membandingkan performa ViT dan ConvNeXt dalam klasifikasi serta rekognisi citra warangka keris Bali. Metode yang digunakan meliputi augmentasi data, ekstraksi fitur, proses patching (untuk ViT), pembuatan model, pengujian, serta analisis grad cam. Data yang digunakan merupakan gabungan data primer (hasil kunjungan ke workshop pembuatan keris Bali) dan data sekunder dari berbagai sumber. Citra keris yang digunakan antara lain: ‘Sesrengatan’, ‘Kojongan’, ‘Batun Poh’, ‘Kekandikan’, dan ‘Beblatungan’. Hasil menunjukkan akurasi 82% (ViT) dan 97% (ConvNeXt), serta bagian penting citra berhasil dikenali sebagai benchmark generatif.Kata kunci: Attention; ConvNeXt; Keris Bali; Vision Transformers

Copyrights © 2025






Journal Info

Abbrev

progresif

Publisher

Subject

Computer Science & IT Control & Systems Engineering

Description

Progresif: Jurnal Ilmiah Komputer adalah Jurnal Ilmiah bidang Komputer yang diterbitkan secara periodik dua nomor dalam satu tahun, yaitu pada bulan Februari dan Agustus. Redaksi Progresif: Jurnal Ilmiah Komputer menerima Artikel hasil penelitian atau atau artikel konseptual bidang ...