MATRIK : Jurnal Manajemen, Teknik Informatika, dan Rekayasa Komputer
Vol 21 No 3 (2022)

Komparasi Ekstraksi Fitur dalam Klasifikasi Teks Multilabel Menggunakan Algoritma Machine Learning

Lusiana Efrizoni (STMIK Amik Riau)
Sarjon Defit (Universitas Putra Indonesia YPTK Padang)
Muhammad Tajuddin (Universitas Bumigora)
Anthony Anggrawan (Universitas Bumigora)



Article Info

Publish Date
31 Jul 2022

Abstract

Ektraksi fitur dan algoritma klasifikasi teks merupakan bagian penting dari pekerjaan klasifikasi teks, yang memiliki dampak langsung pada efek klasifikasi teks. Algoritma machine learning tradisional seperti Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression telah berhasil dalam melakukan klasifikasi teks dengan ektraksi fitur i.e. Bag ofWord (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), Documents to Vector (Doc2Vec), Word to Vector (word2Vec). Namun, bagaimana menggunakan vektor kata untuk merepresentasikan teks pada klasifikasi teks menggunakan algoritma machine learning dengan lebih baik selalumenjadi poin yang sulit dalam pekerjaan Natural Language Processing saat ini. Makalah ini bertujuan untuk membandingkan kinerja dari ekstraksi fitur seperti BoW, TF-IDF, Doc2Vec dan Word2Vec dalam melakukan klasifikasi teks dengan menggunakan algoritma machine learning. Dataset yang digunakan sebanyak 1000 sample yang berasal dari tribunnews.com dengan split data 50:50, 70:30, 80:20 dan 90:10. Hasil dari percobaan menunjukkan bahwa algoritma Na¨ıve Bayes memiliki akurasi tertinggi dengan menggunakan ekstraksi fitur TF-IDF sebesar 87% dan BoW sebesar 83%. Untuk ekstraksi fitur Doc2Vec, akurasi tertinggi pada algoritma SVM sebesar 81%. Sedangkan ekstraksi fitur Word2Vec dengan algoritma machine learning (i.e. i.e. Na¨ıve Bayes, Support Vector Machines, Decision Tree, K-Nearest Neighbors, Random Forest, Logistic Regression) memiliki akurasi model dibawah 50%. Hal ini menyatakan, bahwa Word2Vec kurang optimal digunakan bersama algoritma machine learning, khususnya pada dataset tribunnews.com.

Copyrights © 2022






Journal Info

Abbrev

matrik

Publisher

Subject

Computer Science & IT

Description

MATRIK adalah salah satu Jurnal Ilmiah yang terdapat di Universitas Bumigora Mataram (eks STMIK Bumigora Mataram) yang dikelola dibawah Lembaga Penelitian dan Pengabadian kepada Masyarakat (LPPM). Jurnal ini bertujuan untuk memberikan wadah atau sarana publikasi bagi para dosen, peneliti dan ...