Penyebaran berita hoaks di media online menjadi isu serius di tengah meningkatnya konsumsi informasi digital di kalangan masyarakat. Klasifikasi berita hoaks berbahasa Indonesia memiliki peran penting untuk menekan penyebaran informasi palsu. Salah satu tantangan utama dalam sistem klasifikasi ini adalah ketidakseimbangan distribusi data, di mana jumlah berita non-hoaks jauh lebih banyak dibanding-kan berita hoaks. Penelitian ini mengusulkan pendekatan klasifikasi berita hoaks berbahasa Indonesia melalui teknologi Natural Lan-guange Processing (NLP) menggunakan fine-tuning model IndoBERT, yang merupakan pre-trained language model berbasis arsitektur BERT (Bidirectional Encoder Representations from Transformers) dan dis-esuaikan untuk Bahasa Indonesia. Ketidakseimbangan data diatasi menggunakan metode Focal Loss. Pendekatan focal loss dirancang untuk lebih menekankan pembelajaran pada sampel kelas minoritas yang sulit diklasifikasikan. Penelitian ini menggunakan dataset dari platform Kaggle, Huggingfase dan Mendeley. Tataset mencakup berita Bahasa Indonesia dengan jumlah data berita hoaks jauh lebih kecil dari berita faktual. Hasil evaluasi menunjukkan bahwa kombinasi In-doBERT dan Focal Loss mampu meningkatkan performa model dengan akurasi sebesar 98.3% dibandingkan dengan pendekatan Cross-Entropy Loss yang mendapat akurasi 97% Penelitian ini menun-jukkan bahwa penggabungan model berbasis bahasa alami dengan strategi penanganan data tidak seimbang dapat memberikan hasil yang lebih akurat dalam mendeteksi berita hoaks.
Copyrights © 2025