Tingginya angka perokok aktif di Indonesia yang berdampak pada kesehatan, ekonomi, dan sosial masyarakat, khususnya di kota-kota besar seperti Medan, belum diimbangi dengan pendekatan analitis yang mampu memetakan tingkat kebiasaan merokok secara terstruktur karena keterbatasan data berlabel. Untuk mengatasi permasalahan tersebut, penelitian ini menggunakan pendekatan semi-supervised dengan menggabungkan algoritma K-Means Clustering untuk membentuk label tingkat perokok, dan Extreme Gradient Boosting (XGBoost) untuk melakukan klasifikasi multikelas dengan tiga target kelas, yaitu perokok Ringan, Sedang, dan Berat, berdasarkan karakteristik individu seperti pengaruh sosial, tekanan psikologis, dan kebiasaan merokok harian. Data dikumpulkan dari 638 responden perokok aktif berusia 20"“40 tahun di Kota Medan melalui dua metode, yaitu survei lapangan dengan kuesioner cetak (33 responden) dan survei daring melalui Google Form (605 responden), yang selanjutnya melalui proses validasi dan prapemrosesan sebelum dianalisis. Hasil evaluasi menunjukkan bahwa model XGBoost mencapai akurasi sebesar 98%, dengan precision 1,00, recall 0,94, dan f1-score 0,97 untuk kelas Ringan; precision 0,90, recall 1,00, dan f1-score 0,95 untuk kelas Sedang; serta precision 1,00, recall 0,98, dan f1-score 0,99 untuk kelas Berat.
Copyrights © 2025