Penelitian ini bertujuan untuk menganalisis dan membandingkan performa dua arsitektur Convolutional Neural Network (CNN) populer, yaitu Xception dan InceptionV1, dalam tugas pengenalan ekspresi wajah (Facial Expression Recognition/FER). Penelitian ini dilakukan dengan pendekatan transfer learning dan fine-tuning menggunakan dataset FER-2013 yang berisi 35.887 citra wajah grayscale berukuran 48×48 piksel yang diklasifikasikan ke dalam tujuh emosi dasar. Setiap citra diubah ukurannya menjadi 224×224 piksel, dinormalisasi, dan diproses dengan teknik augmentasi untuk meningkatkan generalisasi model terhadap variasi ekspresi wajah, pencahayaan, dan pose. Proses pelatihan dilakukan selama 30 epoch menggunakan optimizer Adam dengan learning rate 0.0001 dan batch size 64. Strategi fine-tuning dilakukan dengan membuka 30% lapisan atas model untuk mengoptimalkan bobot fitur yang telah dipelajari sebelumnya dari dataset ImageNet. Evaluasi kinerja dilakukan berdasarkan metrik akurasi, presisi, recall, F1-score, serta efisiensi komputasi yang diukur dari waktu pelatihan dan inferensi. Hasil eksperimen menunjukkan bahwa Xception mencapai akurasi validasi 70,69% dengan waktu inferensi rata-rata 20–25 ms, sedangkan InceptionV1 mencapai 65,80% dengan waktu inferensi 43–126 ms. Arsitektur Xception terbukti lebih efisien secara komputasi karena memanfaatkan depthwise separable convolution yang mengurangi jumlah parameter tanpa menurunkan akurasi. Temuan ini menunjukkan bahwa Xception lebih sesuai untuk aplikasi FER real-time dan perangkat dengan sumber daya terbatas, serta memberikan dasar yang kuat bagi penelitian lanjutan dalam pengembangan sistem pengenalan ekspresi wajah berbasis video dan lingkungan dunia nyata.
Copyrights © 2026