Jurnal Rekayasa Sistem Informasi dan Teknologi
Vol. 3 No. 3 (2026): Februari

PENERAPAN MULTILINGUAL BERT UNTUK KLASIFIKASI BAHASA INDONESIA DAN ATAU BAHASA MALAYSIA PADA TEKS PENDEK MEDIA SOSIAL

Moch. Chaidar Chanif (Unknown)
Imam Much Ibnu Subroto (Unknown)



Article Info

Publish Date
05 Feb 2026

Abstract

Penelitian ini bertujuan mengembangkan sistem klasifikasi otomatis untuk membedakan Bahasa Indonesia dan Bahasa Malaysia pada teks pendek media sosial. Metode penelitian yang digunakan meliputi pengumpulan data dari Twitter menggunakan web scraping, seleksi dan preprocessing teks, pelabelan data, pembagian dataset menjadi data latih dan uji, serta penerapan model Multilingual BERT (mBERT) dengan fine-tuning dan evaluasi kinerja menggunakan metrik akurasi, precision, recall, dan F1-score. Hasil penelitian menunjukkan bahwa model mBERT mampu mengklasifikasikan teks dengan akurasi 95,81% dan F1-score rata-rata 0,96, dengan performa yang baik pada kedua bahasa, meskipun terdapat beberapa kesalahan pada teks yang sangat mirip secara kosakata. Simpulan penelitian ini menegaskan bahwa mBERT efektif dan potensial untuk digunakan dalam klasifikasi bahasa serumpun pada teks pendek media sosial.   Kata Kunci: Multilingual BERT, Klasifikasi Bahasa, Bahasa Indonesia, Bahasa Malaysia, Teks Pendek  

Copyrights © 2026






Journal Info

Abbrev

jrsit

Publisher

Subject

Computer Science & IT Decision Sciences, Operations Research & Management

Description

Jurnal Rekayasa Sistem Informasi dan Teknologi (JRSIT) adalah jurnal nasional sebagai media kajian ilmiah hasil penelitian, pemikiran, dan kajian kritis-analitik mengenai penelitian di bidang ilmu dan teknologi komputer, termasuk Teknik Sistem, Teknik Informatika, Teknologi Informasi, Informatika ...