Imbalance data merupakan masalah yang harus diselesaikan pada klasifikasi data mining, karena dapat mengakibatkan menurunnya performa klasifikasi. salah satu cara untuk mengatasi masalah imbalance data adalah dengan metode sampling. metode sampling sendiri dibagi menjadi tiga yaitu under sampling, over sampling, dan hybrid. metode over sampling dipilih karena tidak menghilangkan informasi penting dari sebuah data. algoritma smote merupakan salah satu contoh dari algoritma oversampling. dalam perkembangannya algoritma smote memiliki kelemahan yaitu data sintesis yang dihasilkan mengalami overgeneralize dan noise sehingga ditemukan algoritma kmeans smote pada penelitian ini membandingkan antara dataset tanpa resampling dengan yang telah dilakukan resampling. Pengukuran hasil penelitian menggunakan algoritma klasifikasi yaitu logistic regression, decision tree, naïve bayes dan svm confusion matrix dan gmean sebagai penguji performa klasifikasi. Hasil dari penelitian penerapan metode oversampling pada dataset dengan nilai IR yang berbeda - beda pada dataset yang imbalance menghasilkan kombinasi algoritma oversampling dan algoritma klasifikasi paling signifikan terdapat pada dataset ecoli dengan imbalance ratio 9.28 algoritma Naive Bayes dengan algoritma k means SMOTE memiliki nilai akurasi 76,9 % dan nilai g mean 0.866 dimana jika dibandingkan dengan implementasi dataset yang langsung diklasifikasikan menggunakan algoritma Naive bayes yang memiliki nilai akurasi 44,2 % dan nilai g mean sebesar 0.629 selisih nilai akurasi sebesar 32,7 % dan g mean 0,237.
Copyrights © 2023