Claim Missing Document
Check
Articles

Found 3 Documents
Search

Optimization of K-Means Attribute Selection Using Correlation Matrix in Patient Disease Clustering Bengnga, Amiruddin; Ishak, Rezqiwati
Jambura Journal of Electrical and Electronics Engineering Vol 7, No 2 (2025): Juli - Desember 2025
Publisher : Electrical Engineering Department Faculty of Engineering State University of Gorontalo

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.37905/jjeee.v7i2.28010

Abstract

Patient health is a critical element in public health systems, where grouping disease data can facilitate risk identification and more efficient treatment planning. However,  conventional clustering methods  such as K-Means often have difficulty in separating clusters optimally, especially when the attributes used are irrelevant or redundant. This study aims to optimize  the clustering process  of patient health data by applying attribute selection using Correlation Matrix and Heatmap in the K-Means algorithm. The method used involves normalizing the data with a StandardScaler and determining the optimal number of clusters through  the Elbow Method, which results in three  optimal clusters. Attribute selection is carried out to reduce redundancy, leaving important features such as age, height, and body mass index (BMI). The results of the analysis showed that attribute selection significantly improved clustering performance, with the Silhouette Score increasing from 0.20 to 0.54 and  the Davies-Bouldin Index (DBI) decreasing from 1.60 to 0.63. Visualization of clustering results  using Principal Component Analysis (PCA) shows a clearer separation between clusters, reflecting different patient characteristics. These findings confirm the importance of attribute selection in  the clustering process  to achieve more optimal results that can help in understanding patient health patterns and designing more appropriate interventions.Kesehatan pasien merupakan elemen penting dalam sistem kesehatan masyarakat, di mana pengelompokan data penyakit dapat memfasilitasi identifikasi risiko dan perencanaan perawatan yang lebih efisien. Namun metode clustering konvensional seperti K-Means sering mengalami kesulitan dalam memisahkan cluster secara optimal, terutama ketika atribut yang digunakan tidak relevan atau berlebihan. Penelitian ini bertujuan untuk mengoptimalkan proses clustering data kesehatan pasien dengan menerapkan seleksi atribut menggunakan Correlation Matrix dan Heatmap dalam algoritma K-Means. Metode yang digunakan melibatkan normalisasi data dengan StandardScaler dan penentuan jumlah cluster optimal melalui Elbow Method, yang menghasilkan tiga cluster optimal. Seleksi atribut dilakukan untuk mengurangi redundansi, menyisakan fitur-fitur penting seperti umur, tinggi badan, dan indeks massa tubuh (IMT). Hasil analisis menunjukkan bahwa seleksi atribut secara signifikan meningkatkan performa clustering, dengan Silhouette Score meningkat dari 0,20 menjadi 0,54 dan Davies-Bouldin Index (DBI) menurun dari 1,60 menjadi 0,63. Visualisasi hasil clustering menggunakan Principal Component Analysis (PCA) menunjukkan pemisahan yang lebih jelas antar cluster, mencerminkan karakteristik pasien yang berbeda. Temuan ini menegaskan pentingnya seleksi atribut dalam proses clustering untuk mencapai hasil yang lebih optimal yang dapat membantu dalam memahami pola kesehatan pasien dan merancang intervensi yang lebih tepat.  
Clustering Prestasi Akademik Lulusan Menggunakan Metode K-Means Ishak, Rezqiwati; Bengnga, Amiruddin
Jambura Journal of Electrical and Electronics Engineering Vol 6, No 1 (2024): Januari-Juni 2024
Publisher : Electrical Engineering Department Faculty of Engineering State University of Gorontalo

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.37905/jjeee.v6i1.23967

Abstract

Prestasi akademik merupakan salah satu indikator penting untuk mengukur keberhasilan seorang mahasiswa dalam menyelesaikan studinya di perguruan tinggi. Prestasi ini dapat dilihat dari berbagai aspek, seperti lama studi dan Indeks Prestasi Kumulatif (IPK). Analisis ini digunakan untuk meningkatkan kualitas Pendidikan pada Perguruan Tinggi itu sendiri, serta untuk membantu Mahasiswa dalam mencapai prestasi yang optimal. Penelitian ini bertujuan untuk melakukan clustering prestasi akademik lulusan pada Universitas Ichsan Gorontalo untuk Tahun Akademik 2023/2024 semester Ganjil dengan menerapkan metode K-Means. Jumlah dataset lulusan yang digunakan sebanyak 240 data. Analisis clustering dilakukan berdasarkan atribut lama studi, umur, dan Indeks Prestasi Kumulatif (IPK). Hasil penelitian ini menunjukkan adanya 3 (tiga) cluster utama. Cluster 1 (satu) merupakan kelompok lulusan dengan prestasi akademik cukup baik, terdiri dari 56 lulusan. Cluster 2 (dua) menggambarkan kelompok lulusan dengan prestasi akademik sangat baik, terdiri dari 138 lulusan. Sementara itu, Cluster 3 (tiga) menunjukkan kelompok lulusan dengan prestasi akademik kurang baik jika dilihat dari lama studi, terdiri dari 45 lulusan. Pemilihan jumlah cluster sebanyak 3 didasarkan pada hasil perhitungan teknik Elbow dan evaluasi Davies-Bouldin Index yang memberikan nilai terkecil yakni  0,79 sehingga hasil clustering masuk kategori baik karena nilai DBInya di bawah 1.Academic achievement is one of the important indicators to measure a student's success in completing their studies at the university. This achievement can be observed from various aspects, such as the duration of study and the Cumulative Grade Point Average (GPA). This analysis is used to improve the quality of education at the university itself and to assist students in achieving optimal performance. This research aims to cluster the academic achievements of graduates at Ichsan Gorontalo University for the Academic Year 2023/2024 Odd Semester using the K-Means method. The number of graduate datasets used is 240. The clustering analysis is based on attributes such as the duration of study, age, and Cumulative Grade Point Average (GPA). The results of this study indicate the existence of 3 main clusters. Cluster 1 represents graduates with fairly good academic achievements, consisting of 56 graduates. Cluster 2 describes a group of graduates with excellent academic achievements, totaling 138 graduates. Meanwhile, Cluster 3 indicates a group of graduates with less satisfactory academic achievements when considering the duration of study, consisting of 45 graduates. The selection of 3 clusters is based on the results of the Elbow technique calculation and the evaluation of the Davies-Bouldin Index, which gives the smallest value of 0.79. Therefore, the clustering results are considered good because the DBI value is below 1.
Optimization of K-Means in Disease Clustering of Pregnant Women Using Random Forest Ishak, Rezqiwati; Nurmawanti, Nurmawanti; Bengnga, Amiruddin
Jambura Journal of Electrical and Electronics Engineering Vol 7, No 1 (2025): Januari - Juni 2025
Publisher : Electrical Engineering Department Faculty of Engineering State University of Gorontalo

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.37905/jjeee.v7i1.28374

Abstract

Pregnant women's health is an important aspect of the public health system, where grouping disease data can help in risk identification and better treatment planning. However, traditional clustering methods such as K-Means often face challenges in optimal separation between clusters, especially when the attributes used are irrelevant. This study aims to optimize the K-Means method in disease clustering in pregnant women by applying Random Forest-based attribute selection. Of the six available attributes (age, weight, height, gestational age, systole, and diastole), the three main attributes namely systole, diastole, and gestational age were selected based on the Importance Score from Random Forest. The test results showed that the use of these three attributes increased the Silhouette Score by 0.21 (from 0.23 to 0.44), indicating better cluster separation, and lowered the Davies-Bouldin Index by 0.69 (from 1.50 to 0.81), indicating a more compact and well-separated cluster. Clustering visualization using Principal Component Analysis (PCA) supports these results. In addition, the calculation of the Elbow method shows the optimal number of clusters at k=3, reinforcing the conclusion that the selection of the right attributes and the number of clusters improves the quality of clustering. Overall, this study proves that the selection of Random Forest-based features is able to optimize the K-Means method in disease clustering in pregnant women, which is expected to improve the effectiveness of diagnosis and treatment planning.Kesehatan ibu hamil merupakan aspek penting dalam sistem kesehatan masyarakat, di mana pengelompokan data penyakit dapat membantu dalam identifikasi risiko dan perencanaan perawatan yang lebih baik. Namun, metode clustering tradisional seperti K-Means sering kali menghadapi tantangan dalam pemisahan yang optimal antar cluster, terutama ketika atribut yang digunakan tidak relevan. Penelitian ini bertujuan untuk mengoptimalkan metode K-Means dalam clustering penyakit pada ibu hamil dengan menerapkan seleksi atribut berbasis Random Forest. Dari enam atribut yang tersedia (usia, berat badan, tinggi badan, usia kehamilan, sistole, dan diastole), tiga atribut utama yaitu sistole, diastole, dan usia kehamilan dipilih berdasarkan Importance Score dari Random Forest. Hasil pengujian menunjukkan bahwa penggunaan tiga atribut ini meningkatkan Silhouette Score sebesar 0,21 (dari 0,23 menjadi 0,44), yang mengindikasikan pemisahan cluster yang lebih baik, serta menurunkan Davies-Bouldin Index sebesar 0,69 (dari 1,50 menjadi 0,81), menunjukkan cluster yang lebih kompak dan terpisah dengan baik. Visualisasi clustering menggunakan Principal Component Analysis (PCA) mendukung hasil ini. Selain itu, perhitungan metode Elbow menunjukkan jumlah cluster optimal pada k=3, memperkuat kesimpulan bahwa pemilihan atribut dan jumlah cluster yang tepat meningkatkan kualitas clustering. Secara keseluruhan, penelitian ini membuktikan bahwa seleksi fitur berbasis Random Forest mampu mengoptimalkan metode K-Means dalam clustering penyakit pada ibu hamil, yang diharapkan dapat meningkatkan efektivitas diagnosis dan perencanaan perawatan.