Penyebaran berita hoaks terus meningkat seiring berkembangnya teknologi informasi. Penelitian ini merancang sistem klasifikasi berita hoaks Bahasa Indonesia menggunakan model IndoBERT. Dataset disusun melalui web scraping dari TurnBackHoax.id (berita hoaks), serta CNN Indonesia, Detik.com, dan Kompas.com (berita non-hoaks), mencakup berbagai kategori berita dari tahun 2020 hingga 2025 dengan total 25.296 data. Seluruh data hoaks digunakan, sedangkan data non-hoaks disesuaikan agar seimbang. Model IndoBERT di-fine-tune dengan freeze layer 1–8 dan pelatihan selama lima epoch. Evaluasi menggunakan Confusion Matrix, Classification Report, ROC AUC, dan Precision-Recall Curve. Hasil menunjukkan bahwa model mampu mengklasifikasikan berita hoaks dan non-hoaks secara akurat. Penelitian ini memberikan kontribusi melalui pemanfaatan IndoBERT pada data terkini yang seimbang, serta penggunaan metode evaluasi yang komprehensif.
Copyrights © 2025