Diabetes mellitus merupakan penyakit metabolik kronis yang prevalensinya terus meningkat dan berkontribusi signifikan terhadap beban kesehatan masyarakat global akibat komplikasinya yang bersifat progresif dan sering terdeteksi pada tahap lanjut. Oleh karena itu, deteksi dini risiko diabetes berdasarkan gejala awal dan riwayat kesehatan pasien menjadi penting untuk mendukung intervensi preventif yang tepat waktu. Perkembangan machine learning memungkinkan pemanfaatan data kesehatan untuk membangun model prediksi yang lebih cepat, konsisten, dan objektif dibandingkan pendekatan manual konvensional. Penelitian ini bertujuan untuk mengembangkan model klasifikasi risiko diabetes menggunakan algoritma K-Nearest Neighbor (KNN) berdasarkan dataset Early Stage Diabetes Risk Prediction. Dataset tersebut terdiri dari 520 data dengan 17 atribut, termasuk fitur numerik seperti usia dan fitur kategorikal yang merepresentasikan gejala awal diabetes, seperti polyuria, polydipsia, weakness, dan polyphagia, dengan label kelas positif dan negatif diabetes. Tahap pra-pemrosesan data dilakukan dengan mentransformasikan atribut kategorikal menjadi nilai numerik (Yes=1, No=0; male=1, female=0) agar mendukung perhitungan jarak pada algoritma KNN. Model klasifikasi diimplementasikan menggunakan bahasa pemrograman Python pada Google Colab dan dievaluasi melalui empat skenario percentage split, yaitu 60:40, 70:30, 80:20, dan 90:10. Nilai K diuji pada rentang K=2 hingga K=9 menggunakan metrik jarak Euclidean untuk menentukan parameter optimal. Hasil eksperimen menunjukkan bahwa K=3 secara konsisten memberikan performa terbaik dengan akurasi tertinggi sebesar 97% pada skenario pembagian data 60:40. Temuan ini menunjukkan bahwa model KNN yang diusulkan efektif untuk mendeteksi risiko diabetes pada tahap awal.
Copyrights © 2025