Di dalam pemodelan pembelajaran mesin (Machine Learning), data terbagi menjadi jenis data numerik dan jenis data teks. Tetapi Machine Learning lebih cenderung efektif dalam mengenali pola pada jenis data numerik karena algoritma Machine Learning, terutama yang berbasis statistik dan matematika, dirancang untuk memproses dan menganalisis data numerik. Sehingga bentuk data teks harus dirubah ke dalam bentuk data numerik yang merupakan bagian dari Feature Engineering. Pada penelitian ini, peneliti membanding sebuah hasil akurasi dari prediksi Machine Learning yaitu linear regresi pada teks label data yang telah dilakukan perubahan menjadi numerik dengan metode Feature engineering Label Encoding dan juga Feature Engineering One-Hot Encoding. Pada penelitian ini didapatkan hasil R-Square untuk Label Encoding 0.54 dan R-Squared untuk One-Hot Encoding 0.85 (hasil One-Hot Encoding lebih baik). Sehingga tentu saja yang harus dipilih untuk model yang dibuat adalah Feature Engineering One-Hot Encoding. Untuk kedepannya bisa dilakukan pengujian dengan metode lain untuk merubah data teks menjadi numerik seperti Bags of Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), dan yang lainnya.
Copyrights © 2024