Pengenalan emosi wajah merupakan komponen penting dalam visi komputer karena mendukung interaksi manusia–komputer, analisis perilaku, serta pengembangan sistem cerdas berbasis persepsi visual. Namun, performa model pada dataset umum seperti FER-2013 sering terhambat oleh variasi pencahayaan, resolusi rendah, ketidakseimbangan kelas, dan potensi noise pada label. Penelitian ini mengusulkan pengembangan arsitektur Convolutional Neural Network (CNN) yang dioptimasi untuk meningkatkan akurasi dan kemampuan generalisasi dalam klasifikasi emosi wajah. Pendekatan yang digunakan mencakup preprocessing citra grayscale 48×48 piksel, augmentasi data, penerapan class weighting, serta modifikasi arsitektur dengan Batch Normalization, LeakyReLU, Global Average Pooling, dan Dropout. Model dievaluasi menggunakan akurasi, F1-score, confusion matrix, dan visualisasi Grad-CAM untuk menilai interpretabilitas. Hasil eksperimen menunjukkan bahwa model yang diusulkan mencapai akurasi pengujian 56–58% dan weighted F1-score 0,55–0,58, meningkat signifikan dibandingkan model baseline CNN (41–42%) maupun pendekatan HOG+SVM (35–40%). Analisis menunjukkan peningkatan kinerja pada kelas minor, sementara Grad-CAM mengonfirmasi bahwa model memfokuskan perhatian pada area wajah relevan seperti mata dan mulut. Temuan ini membuktikan bahwa arsitektur CNN ringan yang dioptimasi mampu memberikan performa lebih stabil pada dataset berkualitas rendah dan tidak seimbang, serta menjadi dasar bagi pengembangan model lanjutan berbasis transfer learning dan attention mechanism.