Emosi penonton konser merupakan aspek psikologis penting yang memengaruhi kualitas pengalaman hiburan, keterlibatan audiens, dan kepuasan individu dalam menikmati pertunjukan musik secara langsung. Namun, dinamika emosi penonton cenderung berubah secara cepat dipengaruhi oleh suasana acara, performa musisi, interaksi sosial, dan pengalaman personal selama konser berlangsung. Penelitian ini bertujuan mengembangkan model deep learning multimodal untuk menganalisis emosi penonton konser menggunakan data visual dan perilaku audiens. Pendekatan yang diusulkan mengintegrasikan data ekspresi wajah, perilaku penonton, dan interaksi digital untuk meningkatkan akurasi analisis emosi. Arsitektur hybrid Convolutional Neural Network (CNN) dan Bidirectional Long Short-Term Memory (BiLSTM) digunakan untuk menangkap pola spasial dan temporal dari data multimodal. Model dirancang untuk melakukan analisis emosi secara real-time serta mengidentifikasi perubahan emosional pada lingkungan dinamis seperti konser musik langsung, festival, dan pertunjukan hiburan digital. Metode penelitian meliputi pengumpulan data menggunakan sensor kamera, pra-pemrosesan data, pengembangan model, dan evaluasi performa menggunakan metrik accuracy, precision, recall, F1-score, dan RMSE. Hasil akhir penelitian berupa model deep learning multimodal yang mampu menganalisis emosi penonton konser secara lebih adaptif dibandingkan pendekatan unimodal.