Clustering merupakan salah satu metode pengelompokkan dalam data mining. Clustering mengelompokkan objek yang mempunyai kesamaan kedalam satu cluster. Outlier merupakan objek yang memiliki nilai menyimpang jauh dengan objek-objek lainnya sehingga terlihat tidak mengikuti pola dari sebagian besar objek. Padaclustering terdapat dua metode pendekatan yang dapat digunakan yaitu pendekatan non-hierarki (partisi) dan pendekatan hierarki. K-Medoids atau algoritme Partitioning Around Medoid (PAM) merupakan algoritme dari pendekatan partisi yang digunakan untuk pengelompokkan data yang mengandung outlier.Algoritme PAM menggunakan median (medoid) sebagai pusatcluster, sehingga tidak terpengaruh oleh adanya outlier. Algoritme PAM hanya dapat digunakan untuk pengelompokkan data berskala kecil dan perhitungan jarak antara objek terhadap pusat cluster menggunakan jarak euclidean, namun hasil perhitungan jaraknya dapat terpengaruh adanya outlier.Algoritme Clustering Large Application (CLARA) merupakan algoritme untuk mengelompokkan data berskala besar yang mengandung outlier menggunakan teknik pengambilan sampelkemudian menerapkan algoritme PAMdengan perhitungan jarak antara objek terhadap pusat clustermenggunakan jarak manhattan. Pada penelitian ini dilakukan kajian ulang terhadap algoritme CLARA dari aspek kompleksitas dan perhitungan jarak yang digunakan. Hasil menunjukkan bahwa algoritme CLARA dengan jarak manhattan lebih efisien dan akurat dalam mengelompokkan data berskala besar yang mengandung outlier.
Copyrights © 2022