Analisis sentimen pada komentar media sosial di Indonesia menghadapi tantangan signifikan akibat kompleksitas bahasa yang tidak baku dan ketidakseimbangan distribusi kelas sentimen. Model bahasa pre-trained seperti IndoBERT, yang dilatih pada korpus formal, sering kali mengalami penurunan performa (domain mismatch) ketika diterapkan langsung pada domain ini. Penelitian ini bertujuan untuk mengoptimalisasi kinerja IndoBERT melalui strategi fine-tuning pada dataset sekunder multi-domain serta menerapkan teknik augmentasi data teks, yaitu synonym replacement dan back-translation, guna mengatasi ketidakseimbangan kelas. Evaluasi dilakukan pada dataset uji held-out domain gabungan yang terdiri dari 900 data dengan tiga kelas sentimen. Hasil eksperimen menunjukkan bahwa fine-tuning mutlak diperlukan, di mana model baseline gagal mengenali sentimen dengan weighted f1-score hanya 0,3523. Penerapan fine-tuning meningkatkan kinerja secara signifikan menjadi 0,5994. Lebih lanjut, penggunaan teknik augmentasi synonym replacement terbukti menjadi strategi paling optimal dengan mencatatkan akurasi tertinggi sebesar 69,67% dan weighted f1-score 0,6714. Meskipun teknik back-translation memberikan keseimbangan deteksi kelas yang lebih baik (macro f1 0,5612), teknik ini menunjukkan gejala overfitting selama pelatihan. Penelitian menyimpulkan bahwa kombinasi fine-tuning dan augmentasi synonym replacement adalah metode yang paling efektif dan stabil untuk menangani klasifikasi sentimen lintas domain pada data yang tidak seimbang.
Copyrights © 2025