Pregnant women's health is an important aspect of the public health system, where grouping disease data can help in risk identification and better treatment planning. However, traditional clustering methods such as K-Means often face challenges in optimal separation between clusters, especially when the attributes used are irrelevant. This study aims to optimize the K-Means method in disease clustering in pregnant women by applying Random Forest-based attribute selection. Of the six available attributes (age, weight, height, gestational age, systole, and diastole), the three main attributes namely systole, diastole, and gestational age were selected based on the Importance Score from Random Forest. The test results showed that the use of these three attributes increased the Silhouette Score by 0.21 (from 0.23 to 0.44), indicating better cluster separation, and lowered the Davies-Bouldin Index by 0.69 (from 1.50 to 0.81), indicating a more compact and well-separated cluster. Clustering visualization using Principal Component Analysis (PCA) supports these results. In addition, the calculation of the Elbow method shows the optimal number of clusters at k=3, reinforcing the conclusion that the selection of the right attributes and the number of clusters improves the quality of clustering. Overall, this study proves that the selection of Random Forest-based features is able to optimize the K-Means method in disease clustering in pregnant women, which is expected to improve the effectiveness of diagnosis and treatment planning.Kesehatan ibu hamil merupakan aspek penting dalam sistem kesehatan masyarakat, di mana pengelompokan data penyakit dapat membantu dalam identifikasi risiko dan perencanaan perawatan yang lebih baik. Namun, metode clustering tradisional seperti K-Means sering kali menghadapi tantangan dalam pemisahan yang optimal antar cluster, terutama ketika atribut yang digunakan tidak relevan. Penelitian ini bertujuan untuk mengoptimalkan metode K-Means dalam clustering penyakit pada ibu hamil dengan menerapkan seleksi atribut berbasis Random Forest. Dari enam atribut yang tersedia (usia, berat badan, tinggi badan, usia kehamilan, sistole, dan diastole), tiga atribut utama yaitu sistole, diastole, dan usia kehamilan dipilih berdasarkan Importance Score dari Random Forest. Hasil pengujian menunjukkan bahwa penggunaan tiga atribut ini meningkatkan Silhouette Score sebesar 0,21 (dari 0,23 menjadi 0,44), yang mengindikasikan pemisahan cluster yang lebih baik, serta menurunkan Davies-Bouldin Index sebesar 0,69 (dari 1,50 menjadi 0,81), menunjukkan cluster yang lebih kompak dan terpisah dengan baik. Visualisasi clustering menggunakan Principal Component Analysis (PCA) mendukung hasil ini. Selain itu, perhitungan metode Elbow menunjukkan jumlah cluster optimal pada k=3, memperkuat kesimpulan bahwa pemilihan atribut dan jumlah cluster yang tepat meningkatkan kualitas clustering. Secara keseluruhan, penelitian ini membuktikan bahwa seleksi fitur berbasis Random Forest mampu mengoptimalkan metode K-Means dalam clustering penyakit pada ibu hamil, yang diharapkan dapat meningkatkan efektivitas diagnosis dan perencanaan perawatan.
Copyrights © 2025