Pertumbuhan konten berita digital di Indonesia menciptakan kebutuhan akan metode otomatis untuk mengekstraksi topik-topik utama dari dataset teks berita berskala besar. Penelitian ini melakukan analisis komparatif performa Non-negative Matrix Factorization (NMF) dan Latent Dirichlet Allocation (LDA) dalam tugas topic modeling berita online Indonesia dari tiga media: CNBC Indonesia, Kompas.com, dan Detik.com. Dataset terdiri dari 4.500 artikel berita dengan preprocessing meliputi tokenisasi, penghapusan stopwords, serta ekstraksi fitur menggunakan TF-IDF untuk NMF dan Count Vectorizer untuk LDA. Evaluasi performa dilakukan menggunakan coherence score (Cᵥ), topic diversity, silhouette score, dan uji chi-square untuk distribusi topik antar media. Hasil menunjukkan bahwa NMF memiliki nilai coherence lebih tinggi (0.7544) dibandingkan LDA (0.5600), topic diversity yang lebih baik (0.9400 vs 0.8400), serta efisiensi waktu training yang lebih tinggi (1.60 detik vs 108.30 detik). Uji chi-square mengonfirmasi perbedaan signifikan (p < 0.001) dalam distribusi topik antar media. Berdasarkan hasil evaluasi pada dataset yang digunakan, NMF menunjukkan performa yang lebih baik dibandingkan LDA dalam konteks topic modeling berita online Indonesia.
Copyrights © 2026