Perkembangan layanan digital pada sektor transportasi publik mendorong meningkatnya interaksi pengguna melalui media sosial, khususnya Twitter. Umpan balik pengguna dalam bentuk opini dan keluhan menjadi sumber informasi penting untuk mengevaluasi kualitas layanan, namun volume data yang besar dan bersifat tidak terstruktur menyulitkan analisis secara manual. Oleh karena itu, penelitian ini bertujuan untuk menganalisis sentimen pengguna terhadap layanan PT Kereta Api Indonesia berdasarkan tweet berbahasa Indonesia menggunakan model fine-tuned IndoBERTweet. Penelitian ini menggunakan pendekatan studi kasus dengan data tweet berbahasa Indonesia yang dikumpulkan melalui proses crawling dan dilabeli ke dalam tiga kelas sentimen, yaitu positif, netral, dan negatif. Model IndoBERTweet dilatih dan dievaluasi pada beberapa skenario preprocessing, meliputi baseline tanpa stopword removal dan stemming, penerapan stopword removal, stemming, serta kombinasi keduanya. Selain itu, dilakukan analisis terhadap pengaruh ketidakseimbangan distribusi data melalui penerapan beberapa teknik penanganan data tidak seimbang, yaitu random oversampling, class weighting, text augmentation, dan random undersampling, yang diterapkan pada skenario dengan performa terbaik. Evaluasi kinerja model dilakukan menggunakan metrik accuracy, precision, recall, macro F1-score, dan confusion matrix. Hasil eksperimen menunjukkan bahwa skenario baseline tanpa stopword removal dan stemming memberikan performa terbaik dengan nilai macro F1-score sebesar 0.7702 dan akurasi 0.8333. Penerapan preprocessing tambahan tidak memberikan peningkatan kinerja yang signifikan dan cenderung menurunkan performa, khususnya pada kelas minoritas. Teknik penanganan data tidak seimbang mampu meningkatkan sensitivitas terhadap kelas positif, namun belum melampaui performa baseline secara keseluruhan. Temuan ini menunjukkan bahwa pendekatan preprocessing minimal dengan perhatian terhadap distribusi data lebih sesuai untuk analisis sentimen berbasis IndoBERTweet pada data Twitter.
Copyrights © 2026