Technologia: Jurnal Ilmiah
Vol 15, No 1 (2024): Technologia (Januari)

Studi Kasus Feature Engineering Untuk Data Teks: Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi

Cevi Herdian (Universitas Bunda Mulia)
Ahya Kamila (Universitas Bunda Mulia)
I Gusti Agung Musa Budidarma (Bisnis Digital)



Article Info

Publish Date
16 Jan 2024

Abstract

Di dalam pemodelan pembelajaran mesin (Machine Learning), data terbagi menjadi jenis data numerik dan jenis data teks. Tetapi Machine Learning lebih cenderung efektif dalam mengenali pola pada jenis data numerik karena algoritma Machine Learning, terutama yang berbasis statistik dan matematika, dirancang untuk memproses dan menganalisis data numerik. Sehingga bentuk data teks harus dirubah ke dalam bentuk data numerik yang merupakan bagian dari Feature Engineering. Pada penelitian ini, peneliti membanding sebuah hasil akurasi dari prediksi Machine Learning yaitu linear regresi pada teks label data yang telah dilakukan perubahan menjadi numerik dengan metode Feature engineering Label Encoding dan juga Feature Engineering One-Hot Encoding. Pada penelitian ini didapatkan hasil R-Square untuk Label Encoding 0.54 dan R-Squared untuk One-Hot Encoding 0.85 (hasil One-Hot Encoding lebih baik). Sehingga tentu saja yang harus dipilih untuk model yang dibuat adalah Feature Engineering One-Hot Encoding. Untuk kedepannya bisa dilakukan pengujian dengan metode lain untuk merubah data teks menjadi numerik seperti Bags of Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), dan yang lainnya.

Copyrights © 2024






Journal Info

Abbrev

JIT

Publisher

Subject

Computer Science & IT

Description

Technologia: Jurnal Ilmiah adalah wadah informasi, hasil penelitian, dan tulisan terkait bidang Teknik Informatika dan Sistem Informasi yang dikelola oleh Fakultas Teknologi Informasi Universitas Islam Kalimantan Muhammad Arsyad Al Banjari. Frekuensi terbitan pada jurnal ini 4 kali dalam setahun ...