Pertumbuhan platform media sosial, khususnya Twitter, telah menghasilkan data teks tidak terstruktur dalam jumlah besar yang berisi berbagai opini dan topik publik. Analisis manual terhadap data tersebut tidak efisien dan tidak praktis. Penelitian ini mengusulkan pendekatan clustering teks otomatis untuk mengelompokkan tweet ke dalam topik yang bermakna menggunakan TF-IDF (Term Frequency-Inverse Document Frequency) untuk representasi fitur dan algoritma K-Means untuk clustering tidak terawasi. Penelitian menggunakan dataset TweetTopic yang berisi tweet berbahasa Inggris berlabel berbagai topik. Teknik preprocessing yang ditingkatkan termasuk pembersihan data, case folding, tokenisasi, penghapusan stopword, dan stemming diterapkan untuk meningkatkan kualitas teks. Jumlah cluster optimal (K=3) ditentukan menggunakan Metode Elbow dan analisis Silhouette Score, sesuai dengan tiga topik utama: politik, olahraga, dan hiburan. Hasil eksperimen menunjukkan Silhouette Score sebesar 0,64, mengindikasikan pemisahan dan kualitas cluster yang baik. Dibandingkan dengan penelitian baseline menggunakan CountVectorizer dengan preprocessing minimal, pendekatan TF-IDF dengan preprocessing komprehensif menunjukkan peningkatan signifikan dalam koherensi cluster dan interpretabilitas topik. Temuan penelitian memberikan wawasan praktis untuk pemantauan media sosial, analisis isu publik, dan aplikasi text mining.
Copyrights © 2025