Sebagai salah satu penyakit kronis yang terus meningkat secara global, diagnosis dini diabetes sangat penting untuk mencegah komplikasi yang lebih serius. Untuk memprediksi risiko diabetes, metode pembelajaran mesin telah banyak digunakan. Namun, masalah utama yang sering muncul adalah ketidakseimbangan distribusi kelas pada dataset medis, yang dapat menghambat model klasifikasi. Penelitian ini bertujuan untuk melakukan analisis komparatif terhadap beberapa algoritma machine learning dalam memprediksi risiko diabetes pada dataset yang tidak seimbang serta mengevaluasi dampak penerapan teknik oversampling Synthetic Minority Oversampling Technique (SMOTE). Dataset yang digunakan berasal dari Diabetes Prediction Dataset yang tersedia di Kaggle dengan jumlah sekitar 100.000 data dan distribusi kelas positif sekitar 8,5%. Penelitian ini membandingkan lima algoritma klasifikasi, yaitu Logistic Regression, Random Forest, XGBoost, LightGBM, dan CatBoost. Evaluasi model dilakukan menggunakan metode Stratified 5-fold Cross Validation dengan metrik evaluasi Precision, Recall, F1-score, ROC-AUC, dan PR-AUC. Hasil penelitian menunjukkan bahwa model berbasis boosting memiliki performa yang lebih unggul dibandingkan model lainnya. LightGBM memperoleh nilai PR-AUC tertinggi sebesar sekitar 0,89 dengan ROC-AUC sebesar 0,9785, diikuti oleh CatBoost dan XGBoost dengan performa yang sangat mendekati. Menurut analisis confusion matrix, model terbaik mampu mendeteksi kasus diabetes dengan akurasi sekitar 97%, ketepatan sekitar 93,6%, dan recall sekitar 70%. Hasil penelitian ini menunjukkan bahwa algoritma boosting, khususnya LightGBM, dapat memprediksi diabetes dengan baik pada dataset medis yang tidak seimbang
Copyrights © 2026