Malcom: Indonesian Journal of Machine Learning and Computer Science
Vol. 5 No. 3 (2025): MALCOM July 2025

Analisis Sentimen Coretax: Perbandingan Pelabelan Data Manual, Transformers-Based, dan Lexicon-Based pada Performa IndoBERT: Sentiment Analysis of Coretax: A Comparison of Manual, Transformers-Based, and Lexicon-Based Data Labeling on IndoBERT Performance

Rizkia, Agnia Suci (Unknown)
Wufron, Wufron (Unknown)
Roji, Fikri Fahru (Unknown)



Article Info

Publish Date
31 Jul 2025

Abstract

Analisis sentimen terhadap opini publik di media sosial menjadi tantangan signifikan karena kompleksitas bahasa informal dan volume data yang besar. Penelitian ini bertujuan untuk mengevaluasi pengaruh lima pendekatan pelabelan data manual, IndoBERT , IndoBERT weet, RoBERTa , dan InSet Lexicon terhadap performa model Indonesian Bidirectional Encoder Representations from Transformers (IndoBERT) dalam klasifikasi sentimen terkait isu Coretax. Sebanyak 8.035 tweet dikumpulkan, diproses, dan dilabeli menggunakan masing-masing pendekatan. Dataset hasil pelabelan kemudian digunakan untuk melatih ulang model IndoBERT, yang dievaluasi menggunakan metrik akurasi, F1-score, confusion matrix, dan kurva Receiver Operating Characteristic-Area Under the Curve (ROC-AUC). Hasil menunjukkan bahwa pelabelan otomatis menggunakan Indonesian Bidirectional Encoder Representations from Transformers for Tweet (IndoBERTweet) menghasilkan metrik tertinggi F1-Score (0,9802), tetapi mengalami dominasi kelas netral yang menunjukkan overfitting. Pelabelan manual menghasilkan distribusi kelas yang lebih merata meskipun dengan metrik lebih rendah F1-Score (0,8684), sedangkan Robustly Optimized BERT Pretraining Approach (RoBERTa) menunjukkan keseimbangan terbaik antara performa metrik dan distribusi label. InSet Lexicon dan IndoBERT menunjukkan kecenderungan bias terhadap kelas tertentu. Simpulan dari penelitian ini menegaskan bahwa efektivitas pelabelan tidak hanya ditentukan oleh skor metrik, tetapi juga oleh distribusi kelas yang seimbang untuk menghasilkan model yang adil dan dapat digeneralisasi.

Copyrights © 2025






Journal Info

Abbrev

malcom

Publisher

Subject

Computer Science & IT

Description

MALCOM: Indonesian Journal of Machine Learning and Computer Science is a scientific journal published by the Institut Riset dan Publikasi Indonesia (IRPI) in collaboration with several Universities throughout Riau and Indonesia. MALCOM will be published 2 (two) times a year, April and October, each ...