Diabetes merupakan kondisi ketika pankreas tidak mampu memproduksi insulin secara optimal, atau ketika tubuh tidak dapat menggunakan insulin dengan efektif, sehingga distribusi insulin menjadi terganggu. Dalam pelaksanaan penelitian ini, peneliti mengadopsi dua pendekatan utama yang menjadi landasan dalam proses pengumpulan dan analisis data, yaitu studi literatur yang dilakukan dengan mencari, mengevaluasi, dan mengkaji berbagai artikel jurnal ilmiah, sumber terpercaya lainnya yang berkaitan dengan topik penelitian, dan penerapan algoritma K-Means yang memberikan gambaran lebih terstruktur mengenai distribusi kelompok pasien. Dalam proses analisis, digunakan aplikasi RapidMiner untuk mempermudah pengelompokan data dan memungkinkan peneliti mengevaluasi kinerja algoritma K-Means yang diterapkan. Dataset yang digunakan berisi 5.000 data pasien dan 9 atribut kesehatan, yang dikelompokkan menggunakan metode Elbow dan validasi dengan Davies-Bouldin Index, dengan nilai 0,827. Secara keseluruhan, terdapat tiga cluster utama yang masing-masing menunjukkan karakteristik kesehatan berbeda. Cluster pertama terdiri dari pasien dengan risiko rendah (45%), yang memiliki kadar gula darah normal dan tidak ada yang terdiagnosis diabetes. Cluster kedua menunjukkan kelompok dengan risiko menengah (35%) yang mulai menunjukkan gejala pra-diabetes serta peningkatan kadar gula darah dan beberapa faktor risiko lain. Sedangkan cluster ketiga berisi pasien dengan risiko tinggi (20%) yang memiliki kadar gula darah sangat tinggi, di mana sebagian besar sudah berada dalam fase diabetes dan menghadapi kondisi yang lebih serius. Temuan ini menunjukkan bahwa hasil klasterisasi tidak hanya menggambarkan variasi kondisi kesehatan pasien, tetapi juga memiliki nilai praktis dalam konteks medis, seperti membantu tenaga kesehatan melakukan deteksi dini, memprioritaskan pasien berisiko tinggi, serta mendukung strategi intervensi yang lebih personal dan tepat sasaran.