Building of Informatics, Technology and Science
Vol 6 No 3 (2024): December 2024

Penggunaan Model Bahasa indoBERT pada metode Random Forest untuk Klasifikasi Sentimen dengan Dataset Terbatas

Pranata, Joni (Unknown)
Agustian, Surya (Unknown)
Jasril, Jasril (Unknown)
Haerani, Elin (Unknown)



Article Info

Publish Date
18 Dec 2024

Abstract

Masalah keterbatasan data latih menjadi tantangan utama dalam klasifikasi sentimen di berbagai bahasa, termasuk bahasa Indonesia, terutama untuk analisis sentimen terkait topik tertentu. Hal ini disebabkan oleh berbagai faktor, dan umumnya adalah kebutuhan untuk mengetahui dengan segera bagaimana sentimen terhadap suatu isu, sehingga tidak mungkin menghabiskan waktu untuk memberi label yang cukup pada data untuk proses pelatihan. Penelitian ini mengusulkan model klasifikasi sentimen dengan sumber data pelatihan yang sedikit, pada studi kasus pengangkatan Kaesang Pangarep sebagai ketua umum PSI. Algoritma Random Forest digunakan sebagai model dasar (baseline) yang dioptimasi dengan penambahan data eksternal untuk training, pemrosesan teks (text preprocessing) dan parameter tuning. Fitur input yang digunakan adalah model bahasa IndoBERT sebagai embedding kata untuk menghasilkan representasi teks yang lebih kontekstual. Hasil penelitian menunjukkan bahwa metode IndoBERT dengan Random Forest yang dioptimasi memberikan peningkatan performa yang signifikan dibandingkan baseline, sebesar 6%. Hasil klasifikasi model yang paling optimal sebesar 54% unutk F1-score dan 63% akurasi. Temuan ini menegaskan bahwa penambahan data eksternal dan optimasi parameter dapat meningkatkan kemampuan generalisasi model dalam klasifikasi sentimen bahasa Indonesia. Penelitian ini diharapkan dapat menjadi referensi metodologis bagi studi klasifikasi sentimen serupa yang menghadapi kendala ukuran dataset.

Copyrights © 2024






Journal Info

Abbrev

bits

Publisher

Subject

Computer Science & IT

Description

Building of Informatics, Technology and Science (BITS) is an open access media in publishing scientific articles that contain the results of research in information technology and computers. Paper that enters this journal will be checked for plagiarism and peer-rewiew first to maintain its quality. ...