Penelitian ini bertujuan mengembangkan sistem klasifikasi otomatis untuk membedakan Bahasa Indonesia dan Bahasa Malaysia pada teks pendek media sosial. Metode penelitian yang digunakan meliputi pengumpulan data dari Twitter menggunakan web scraping, seleksi dan preprocessing teks, pelabelan data, pembagian dataset menjadi data latih dan uji, serta penerapan model Multilingual BERT (mBERT) dengan fine-tuning dan evaluasi kinerja menggunakan metrik akurasi, precision, recall, dan F1-score. Hasil penelitian menunjukkan bahwa model mBERT mampu mengklasifikasikan teks dengan akurasi 95,81% dan F1-score rata-rata 0,96, dengan performa yang baik pada kedua bahasa, meskipun terdapat beberapa kesalahan pada teks yang sangat mirip secara kosakata. Simpulan penelitian ini menegaskan bahwa mBERT efektif dan potensial untuk digunakan dalam klasifikasi bahasa serumpun pada teks pendek media sosial. Kata Kunci: Multilingual BERT, Klasifikasi Bahasa, Bahasa Indonesia, Bahasa Malaysia, Teks Pendek
Copyrights © 2026