Penyampaian pesan dalam pidato bergantung pada susunan kalimat yang efektif dan bervariasi. Namun, keberagaman struktur kalimat dalam naskah pidato membuat pengelompokan secara manual menjadi kurang efisien. Dengan menggunakan teknik pemrosesan bahasa alami, proses ini dapat dilakukan secara sistematis melalui pendekatan klasterisasi. Studi ini berfokus untuk membandingkan performa algoritma K-Means dan Agglomerative Hierarchical dalam mengelompokkan kalimat pada naskah pidato. Data dikumpulkan dari situs Korpus Nusantara dan Jago Berpidato. Tahapan pre-processing mencakup data cleaning, case folding, stopword removal, tokenisasi, ekstraksi fitur menggunakan TF-IDF dengan parameter N-Gram, serta reduksi dimensi dengan PCA. Evaluasi menggunakan metrik Davies-Bouldin Index (DBI) dan Silhouette Score mengindikasikan bahwa algoritma Agglomerative Hierarchical dengan pendekatan average linkage menghasilkan klasterisasi yang lebih optimal dengan nilai DBI 0.1419 dan Silhouette Score 0.7742. Sebaliknya, algoritma K-Means menghasilkan performa lebih rendah, dengan nilai DBI 0.8551 dan Silhouette Score 0.5557. Selain itu, penggunaan parameter n-gram juga berpengaruh terhadap kualitas klasterisasi. Representasi trigram memberikan hasil terbaik khususnya pada Agglomerative Hierarchical dibandingkan dengan unigram (DBI/Silhouette Score: 0.6934/0.3002) dan bigram (DBI/Silhouette Score: 0.2192/0.6625). Pada penelitian ini, kombinasi Agglomerative Hierarchical dengan representasi fitur trigram terbukti paling efektif dalam mengelompokkan kalimat berdasarkan kemiripan gaya bahasa dalam naskah pidato.
Copyrights © 2025