Diabetes merupakan salah satu penyakit tidak menular yang prevalensinya terus meningkat secara global maupun nasional. Kondisi ini menimbulkan risiko komplikasi serius seperti penyakit jantung, stroke, hingga gagal ginjal apabila tidak terdeteksi sejak dini. Oleh karena itu, dibutuhkan metode prediksi berbasis data yang mampu membantu proses deteksi awal secara cepat, akurat, dan efisien. Penelitian ini bertujuan membandingkan kinerja empat algoritma pembelajaran mesin, yaitu Random Forest, XGBoost, Support Vector Machine (SVM), dan K-Nearest Neighbor (KNN) dalam memprediksi penyakit diabetes menggunakan dataset publik dari Kaggle. Penelitian dilakukan dengan mengacu pada kerangka Knowledge Discovery in Databases (KDD) yang terdiri dari tahapan seleksi data, pra-pemrosesan (data cleaning, transformasi, dan normalisasi), penyeimbangan kelas menggunakan Synthetic Minority Over-sampling Technique (SMOTE), pembagian data latih dan data uji dengan rasio 80:20, implementasi algoritma, serta evaluasi performa model. Evaluasi dilakukan menggunakan metrik Accuracy, Precision, Recall, dan F1-Score untuk memastikan kualitas prediksi secara menyeluruh. Hasil penelitian menunjukkan bahwa Random Forest dan XGBoost memberikan performa terbaik dengan nilai Accuracy, Precision, Recall, dan F1-Score sebesar 0,97. Model KNN menunjukkan performa cukup baik dengan skor 0,94, sementara SVM memperoleh nilai terendah sebesar 0,89. Temuan ini menegaskan bahwa penerapan kerangka KDD dengan teknik SMOTE mampu menghasilkan model prediksi yang optimal. Random Forest dan XGBoost direkomendasikan sebagai algoritma unggulan pada penelitian serupa, terutama pada dataset dengan karakteristik kelas yang tidak seimbang.