Latent Dirichlet Allocation (LDA) adalah algoritma topic modeling yang bekerja tanpa label data dan sangat dipengaruhi oleh pra-pemrosesan dan pengaturan parameter. Penelitian ini bertujuan mengoptimalkan LDA untuk mengekstraksi topik utama dari 100 teks dongeng berbahasa Indonesia. Teks diproses menggunakan berbagai kombinasi teknik pra-pemrosesan seperti tokenisasi, stopword removal, stemming, dan normalisasi. Eksperimen dilakukan dengan memvariasikan jumlah topik (K) serta parameter alpha dan eta. Evaluasi menggunakan coherence score untuk menilai konsistensi semantik topik. Hasil terbaik diperoleh pada kombinasi pra-pemrosesan kedua dengan 15 topik, menghasilkan coherence score tertinggi sebesar 0,4885. Temuan ini menunjukkan bahwa pemilihan pra-pemrosesan dan parameter yang tepat dapat meningkatkan kualitas topik secara signifikan. Penelitian ini diharapkan mendukung pengembangan analisis topik pada teks naratif Indonesia.
Copyrights © 2025