JURNAL TEKNIK INDUSTRI
Vol. 12 No. 3 (2022): VOLUME 12 NO 3 NOVEMBER 2022

Perbandingan Kinerja Model TF-IDF dan BOW untuk Klasifikasi Opini Publik Tentang Kebijakan BLT Minyak Goreng

Dedy Sugiarto (Unknown)
Ema Utami (Unknown)
Ainul Yaqin (Unknown)



Article Info

Publish Date
22 Dec 2022

Abstract

Intisari— Penelitian ini bertujuan untuk membandingkan kinerja klasifikasi dari metode Naïve Bayes (NB) dan Regresi Logistik (LR) menggunakan dua model ekstraksi ciri, yaitu Count Bag of Word (BOW) dan Term Frequency-Inverse Document Frequency (TF-IDF). Kasus yang diangkat adalah opini publik dari data Twitter terkait kebijakan Bantuan Langsung Tunai (BLT) minyak goreng yang dikeluarkan oleh Pemerintah pada awal April 2022. Tahap penelitian diawali dengan proses crawling dengan bantuan Twitter API menggunakan kata kunci Minyak Goreng BLT dan dilanjutkan dengan tahap pra-pemrosesan data dan pelabelan secara manual. Data teks yang bersih dan memiliki label kemudian dibelah menjadi data latih (90%) dan data uji (10%) dan diubah menjadi data numerik dengan menggunakan model BOW dan TF-IDF untuk kemudian digunakan sebagai input pada algoritma klasifikasi. Proses crawling menghasilkan 5058 tweet dan menyusut menjadi 1335 tweet bersih setelah pra-pemrosesan data. Terdapat 25,62% tweet positif, 14,38 % tweet negatif, dan 60% tweet netral. Hasil perbandingan model ekstraksi ciri dan algoritma klasifikasi menunjukkan bahwa model dengan performansi tertinggi diperoleh melalui model regresi logistik dengan BOW (LR-BOW) yang menghasilkan F1-score sebesar 0,70 dan akurasi sebesar 0,72. Hasil prediksi sentiment dengan model terbaik dapat menjadi bahan pertimbangan bagi pemerintah khususnya Kementerian Sosial dan Kementerian Perdagangan untuk lebih memperkuat tema kebijakan BLT yang membangkitkan sentiment positif serta memperbaiki tema yang membangkitkan sentiment negative. Abstract—This study aims to compare the classification performance of the Naïve Bayes (NB) and Logistics Regression (LR) methods using two feature extraction models, namely Count Bag of Word. (BOW) and Term Frequency-Inverse Document Frequency (TF-IDF). The case raised is public opinion from Twitter data related to the Cooking Oil Direct Cash Assistance (BLT) policy issued by the Government in early April 2022. The research phase begins with a crawling process with the help of the Twitter API using the keyword BLT Cooking Oil and continues with the pre-processing stage of data and manual labeling.. The clean and labeled text data were then split into training data (90%) and test data (10%) and converted into numeric data using the BOW and TF-IDF models to be used as input to the classification algorithm. The crawling process resulted in 5058 tweets and shrunk to 1335 clean tweets after data pre-processing. There were 25.62% positive tweets, 14.38% negative tweets, and 60% neutral tweets. The results of the comparison of feature extraction models and classification algorithms show that the model with the highest performance is obtained through a logistic regression model with BOW (LR-BOW) which produces an F1-score of 0.70 and an accuracy of 0.72. The results of sentiment prediction with the best model can be taken into consideration for the government, especially the Ministry of Social Affairs and the Ministry of Trade to further strengthen the BLT policy theme that evokes positive sentiment and improves the theme that evokes negative sentiment.

Copyrights © 2022






Journal Info

Abbrev

tekin

Publisher

Subject

Electrical & Electronics Engineering Energy Industrial & Manufacturing Engineering

Description

Jurnal Teknik Industri (JTI) mainly focuses on industrial engineering scientific essays in the form of research results, surveys and literature review that are closely related to the Field of Industrial ...