Abstrak — Pada tahun 2023, kecelakaan lalu lintas mencapai angka tertinggi dalam lima tahun terakhir, dengan total 148.575 kasus, dimana 20% di antaranya disebabkan oleh kantuk, yang meningkatkan risiko kecelakaan hingga tiga kali lipat akibat penurunan kewaspadaan pengemudi. Penelitian ini mengusulkan metode ekstraksi fitur geometris Eye Aspect Ratio (EAR) dan Mouth Aspect Ratio (MAR) dari citra wajah sekuensial secara real-time menggunakan MediaPipe. EAR dan MAR dihitung berdasarkan koordinat landmark mata dan mulut, kemudian disusun dalam urutan temporal untuk menggambarkan perubahan kondisi subjek seiring waktu. Representasi ini efektif dalam menggambarkan transisi kantuk, yang dapat digunakan sebagai input dalam model deteksi berbasis deep learning. Penelitian ini melibatkan lima komponen utama: pengujian metode klasifikasi, pengolahan input data, perbaikan citra, augmentasi data, dan pipeline model. Data dari National Tsing Hua University Drowsiness Dataset (NTHU-DDD) dikelompokkan dalam window 60 frame, dengan fitur EAR dan MAR diekstraksi menggunakan MediaPipe. Hasil penelitian menunjukkan bahwa model CNN LSTM efektif dalam memproses fitur EAR dan MAR secara sekuensial. Representasi penuh dengan input implisit (120, 1) memberikan performa terbaik, sementara teknik augmentasi SMOTE meningkatkan performa dengan menyeimbangkan distribusi kelas. Model CNN-LSTM-120FT tanpa perbaikan citra atau augmentasi menunjukkan performa paling stabil, dengan accuracy 85,59% dan precision 92,31%. Kata kunci— kecelakaan lalu lintas, kantuk, EAR, MAR, deep learning, citra sekuensial