Claim Missing Document
Check
Articles

Found 1 Documents
Search

PENERAPAN MULTILINGUAL BERT UNTUK KLASIFIKASI BAHASA INDONESIA DAN ATAU BAHASA MALAYSIA PADA TEKS PENDEK MEDIA SOSIAL Moch. Chaidar Chanif; Imam Much Ibnu Subroto
Jurnal Rekayasa Sistem Informasi dan Teknologi Vol. 3 No. 3 (2026): Februari
Publisher : Yayasan Nuraini Ibrahim Mandiri

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.70248/jrsit.v3i3.3411

Abstract

Penelitian ini bertujuan mengembangkan sistem klasifikasi otomatis untuk membedakan Bahasa Indonesia dan Bahasa Malaysia pada teks pendek media sosial. Metode penelitian yang digunakan meliputi pengumpulan data dari Twitter menggunakan web scraping, seleksi dan preprocessing teks, pelabelan data, pembagian dataset menjadi data latih dan uji, serta penerapan model Multilingual BERT (mBERT) dengan fine-tuning dan evaluasi kinerja menggunakan metrik akurasi, precision, recall, dan F1-score. Hasil penelitian menunjukkan bahwa model mBERT mampu mengklasifikasikan teks dengan akurasi 95,81% dan F1-score rata-rata 0,96, dengan performa yang baik pada kedua bahasa, meskipun terdapat beberapa kesalahan pada teks yang sangat mirip secara kosakata. Simpulan penelitian ini menegaskan bahwa mBERT efektif dan potensial untuk digunakan dalam klasifikasi bahasa serumpun pada teks pendek media sosial.   Kata Kunci: Multilingual BERT, Klasifikasi Bahasa, Bahasa Indonesia, Bahasa Malaysia, Teks Pendek