Ketidakseimbangan jumlah data pada setiap kelasnya serta adanya data outlier seringkali menjadi masalah dalam proses klasifikasi, hal tersebut tentu akan mempengaruhi performa kinerja pembelajaran mesin yang menurun. Oleh karena itupada penelitian ini diusulkan penggunaan teknik Random Oversampling (ROs) untuk mengatasi ketidakseimbangan data serta teknik Outlier Removal Clustering (ORC) untuk mengatasi data outlier pada penentuan status mutu air. Kedua teknik tersebut digunakan pada tahapan prapemrosesan. Penelitian ini terdiri dari beberapa tahapan, yaitu penentuan kelas status mutu air menggunakan teknik indeks pencemaran, prapemrosesan, pembagian data, klasifikasi serta evaluasi kinerja. Ada tiga algoritma klasifikasi yang digunakan sebagai perbandingan, yaitu KNN, CART dan random forest. Berdasarkan hasil penelitian menunjukkan peningkatan rerata akurasi dari penggunaan ketiga algoritma klasifikasi tersebut dengan tanpa dilakukan prapemrosesan, penggunaan ROs serta integrasi ROs dan ORC secara berurutan sebagai berikut 83,81%; 94,87% dan 95,51%. Jadi penggunaan teknik Ros dan ORC terbukti meningkatkan performa kinerja pada machine learning.
Copyrights © 2022