Pembangunan Ibu Kota Negara (IKN) di Indonesia telah menarik perhatian publik secara luas dan menjadi topik diskusi di media sosial, termasuk platform YouTube. Untuk memahami sentimen publik terkait proyek ini, penelitian ini menggunakan dua metode pembelajaran mesin, yaitu K-Nearest Neighbors (KNN) dan NAÏVE BAYES. Data diperoleh dari komentar-komentar di YouTube yang kemudian diproses melalui beberapa tahapan, termasuk pembersihan data (preprocessing), tokenisasi, dan pembagian menjadi data latih serta data uji. Proses pembersihan melibatkan penghapusan elemen-elemen yang tidak relevan, seperti tanda baca, angka, dan spasi berlebih, untuk meningkatkan kualitas data. Setelah itu, proses tokenisasi mengubah teks menjadi kumpulan kata yang dapat dianalisis oleh model. Data ini kemudian dibagi menjadi dua bagian, yaitu data latih yang digunakan untuk melatih model dan data uji yang digunakan untuk mengukur kinerjanya. Hasil analisis menunjukkan bahwa NAÏVE BAYES mencapai akurasi sebesar 0.6 dengan persentase 60%, performa yang konsisten dalam mengklasifikasikan berbagai kelas sentimen, terutama untuk sentimen netral dan positif. Di sisi lain, KNN menunjukkan akurasi yang jauh lebih rendah, sebesar 0.3 dengan persentase 23%, precision antar kelas yang kurang stabil dimana precision kelas 1 (netral) sangat rendah sebesar 0.21. Perbandingan ini mengindikasikan bahwa NAÏVE BAYES lebih akurat daripada KNN dalam mengidentifikasi sentimen publik terkait proyek IKN, sehingga lebih direkomendasikan untuk digunakan dalam analisis sentimen untuk studi-studi serupa. The development of Indonesia's new capital city (IKN) has garnered widespread public attention and become a topic of discussion on social media platforms, including YouTube. To understand public sentiment regarding this project, this study employs two machine learning methods, namely K-Nearest Neighbors (KNN) and NAÏVE BAYES. Data were collected from YouTube comments and processed through several stages, including data cleaning (preprocessing), tokenization, and splitting into training and testing datasets. The cleaning process involved removing irrelevant elements such as punctuation marks, numbers, and excessive whitespace to improve data quality. Following this, tokenization transformed the text into a set of words that could be analyzed by the models. The data were then divided into two parts: the training dataset used to train the models and the testing dataset used to evaluate their performance. The analysis results showed that NAÏVE BAYES achieved an accuracy of 0.6 or 60%, demonstrating consistent performance in classifying various sentiment classes, especially for neutral and positive sentiments. On the other hand, KNN exhibited a significantly lower accuracy of 0.3 or 23%, with unstable precision across classes, particularly a very low precision of 0.21 for the neutral class. This comparison indicates that NAÏVE BAYES is more accurate than KNN in identifying public sentiment regarding the IKN project and is therefore recommended for use in similar sentiment analysis studies.
Copyrights © 2024