Algoritma K-Meansmerupakan salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering seperti masalah pengenalan pola, partisi dan pengelompokkan taksonomi pada tumbuhan. AlgoritmaK-Means memiliki ketergantungan terhadap pemilihan titik pusat awal klaster yang dilakukan secara acak. Hal ini dapat mempengaruhi hasil clustering karena adanya perubahan titik pusat awal klaster pada tiap simulasi. Metode Enhanceddan Maximum Minimum CriterionAlgorithm merupakan dua metode yang dapat diterapkan pada algoritma K-Meansdalam pemilihan titik pusat awal klaster. Penerapan kedua metode tersebut pada algoritma K-Means menghasilkan hasil clustering yanglebih optimal. Hal tersebut ditunjukkan dengan jumlah iterasi yang sama pada tiap simulasi dalam mencapai kriteria konvergen dan nilai rata-rata similaritas terhadap data benchmark yang lebih baik. Selain itu, kesulitan algoritma K-Means adalah dalam menentukan jumlah klaster optimal suatu himpunan data.Indeks validitas merupakan metode yang dapat digunakan untuk menentukan hasil clusteringdengan jumlah klaster optimal pada himpunan data. Pada makalah ini, dilakukan clustering menggunakan algoritma K-Means, K-Means Enhanced dan K-Means Maximum Minimum Criterion Algorithm. Selanjutnya, masing-masing hasil clustering tersebut dievaluasi oleh empat jenis indeks validitas, yaitu indeks Silhouette, Davies-Bouldin, Dunn, dan Calinski-Harabasz. Implementasi tersebut dilakukan padahimpunan data benchmark yang sudah diketahui jumlah klaster optimalnya yaitu himpunan data Iris, Ruspini, Seeds, dan Wine. Hasil implementasi dibandingkan untuk mengetahuiapakah keempat indeks validitas dapat memprediksi jumlah klaster dengan tepat. Dari hasil simulasi, indeks Silhouette, Davies-Bouldin, dan Calinski-Harabasz dapat memprediksi jumlah klaster optimal lebih baik dibandingkan dengan Dunn.
Copyrights © 2019