Perkembangan pesat kecerdasan buatan dan pembelajaran mendalam telah mendorong eksplorasi berbagai arsitektur jaringan saraf untuk pengolahan data non-visual, seperti data numerik, sekuensial, dan tekstual. Dua arsitektur yang paling banyak digunakan dan berkembang adalah Convolutional Neural Network (CNN) dan Transformer. Meskipun CNN telah lama digunakan secara luas karena efisiensinya dalam mengekstraksi fitur lokal, arsitektur Transformer dengan mekanisme self-attention menawarkan kemampuan unggul dalam menangkap hubungan global dan dependensi kompleks antar elemen data. Penelitian ini bertujuan untuk membandingkan kinerja dan efisiensi arsitektur CNN dan Transformer dalam pengolahan data non-visual melalui pendekatan eksperimental kuantitatif. Dataset non-visual digunakan dan melalui tahapan pra-pemrosesan sebelum dilakukan pelatihan dan pengujian model. Evaluasi performa dilakukan menggunakan metrik akurasi, precision, recall, dan F1-score, serta analisis efisiensi komputasi berdasarkan waktu pelatihan dan kompleksitas model. Hasil penelitian menunjukkan bahwa Transformer secara konsisten mencapai performa yang lebih tinggi dibandingkan CNN pada seluruh metrik evaluasi, khususnya dalam menangani pola kompleks dan hubungan jangka panjang pada data non-visual. Namun, CNN menunjukkan keunggulan dalam efisiensi komputasi dan kestabilan pelatihan dengan kebutuhan sumber daya yang lebih rendah. Temuan ini mengindikasikan bahwa tidak terdapat satu arsitektur yang sepenuhnya unggul dalam semua aspek, melainkan pemilihan model harus disesuaikan dengan karakteristik data dan kebutuhan aplikasi. Selain itu, penelitian ini menyoroti potensi pendekatan hibrida yang mengombinasikan CNN dan Transformer untuk meningkatkan performa dan generalisasi model. Penelitian ini diharapkan dapat menjadi referensi empiris bagi pengembangan sistem cerdas berbasis pembelajaran mendalam dalam pengolahan data non-visual.
Copyrights © 2026