Perkembangan teknologi visi komputer telah membuka peluang bagi industri jasa, khususnya kafe, untuk meningkatkan efisiensi operasional dan pemahaman perilaku pelanggan. Penelitian ini mengusulkan dan mengimplementasikan sistem real-time untuk mendeteksi dan menghitung durasi duduk pelanggan di meja kafe dengan memanfaatkan IP Camera sebagai perangkat akuisisi data, serta algoritma YOLOv8 untuk deteksi objek dan Deep SORT untuk pelacakan multi-objek. Sistem ini dirancang untuk mengidentifikasi keberadaan manusia, mengaitkannya dengan posisi meja, dan mencatat waktu kedatangan serta kepergian pelanggan secara otomatis. Data yang dihasilkan dapat digunakan untuk analisis tingkat okupansi meja, durasi kunjungan rata-rata, dan optimalisasi tata letak ruang. Evaluasi sistem dilakukan dengan menguji akurasi deteksi, pelacakan, serta perhitungan durasi duduk terhadap data ground truth. Hasil pengujian menunjukkan bahwa sistem mampu menjalankan fungsinya secara efektif dengan akurasi pelacakan mencapai lebih dari 85% pada kondisi pencahayaan dan sudut kamera yang optimal. Sistem ini diharapkan dapat menjadi solusi cerdas bagi pengelola kafe dalam pengambilan keputusan berbasis data. Kata Kunci: Computer Vision, YOLOv8, Deep SORT, IP Camera, Pelacakan Objek, Durasi Duduk, Kafe, Real-Time.