Penelitian ini mengevaluasi dan membandingkan kinerja tiga algoritma machine learning Logistic Regression, Random Forest, dan XGBoost untuk prediksi diabetes menggunakan nested cross-validation (5-fold outer, 3-fold inner) dengan pipeline preprocessing terintegrasi untuk mencegah data leakage. Dataset yang digunakan adalah Pima Indians Diabetes Dataset (n = 768). Uji Friedman (p = 0,819) mengonfirmasi bahwa ketiga model tidak berbeda secara statistik, sehingga Logistic Regression dipilih berdasarkan prinsip parsimoni dengan stabilitas tertinggi (AUC-ROC 72,3% ± 1,6% pada nested cross-validation) dan precision 74,8% ± 6,8%. Pada data uji independen, model mencapai akurasi 69,5%, AUC-ROC 81,4%, dan PR-AUC 65,9%. Analisis SHAP mengidentifikasi Glucose, BMI, dan DiabetesPedigreeFunction sebagai tiga prediktor teratas, yang selaras dengan kriteria diagnostik dan faktor risiko dalam pedoman American Diabetes Association dan World Health Organization. Kesesuaian ini membuktikan bahwa model mempelajari pola yang bermakna secara klinis, bukan sekadar korelasi statistik.
Copyrights © 2026