Claim Missing Document
Check
Articles

Found 1 Documents
Search
Journal : Building of Informatics, Technology and Science

Penggunaan Model Bahasa indoBERT pada metode Random Forest untuk Klasifikasi Sentimen dengan Dataset Terbatas Pranata, Joni; Agustian, Surya; Jasril, Jasril; Haerani, Elin
Building of Informatics, Technology and Science (BITS) Vol 6 No 3 (2024): December 2024
Publisher : Forum Kerjasama Pendidikan Tinggi

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.47065/bits.v6i3.6335

Abstract

Masalah keterbatasan data latih menjadi tantangan utama dalam klasifikasi sentimen di berbagai bahasa, termasuk bahasa Indonesia, terutama untuk analisis sentimen terkait topik tertentu. Hal ini disebabkan oleh berbagai faktor, dan umumnya adalah kebutuhan untuk mengetahui dengan segera bagaimana sentimen terhadap suatu isu, sehingga tidak mungkin menghabiskan waktu untuk memberi label yang cukup pada data untuk proses pelatihan. Penelitian ini mengusulkan model klasifikasi sentimen dengan sumber data pelatihan yang sedikit, pada studi kasus pengangkatan Kaesang Pangarep sebagai ketua umum PSI. Algoritma Random Forest digunakan sebagai model dasar (baseline) yang dioptimasi dengan penambahan data eksternal untuk training, pemrosesan teks (text preprocessing) dan parameter tuning. Fitur input yang digunakan adalah model bahasa IndoBERT sebagai embedding kata untuk menghasilkan representasi teks yang lebih kontekstual. Hasil penelitian menunjukkan bahwa metode IndoBERT dengan Random Forest yang dioptimasi memberikan peningkatan performa yang signifikan dibandingkan baseline, sebesar 6%. Hasil klasifikasi model yang paling optimal sebesar 54% unutk F1-score dan 63% akurasi. Temuan ini menegaskan bahwa penambahan data eksternal dan optimasi parameter dapat meningkatkan kemampuan generalisasi model dalam klasifikasi sentimen bahasa Indonesia. Penelitian ini diharapkan dapat menjadi referensi metodologis bagi studi klasifikasi sentimen serupa yang menghadapi kendala ukuran dataset.