Analisis sentimen pada data teks media sosial menjadi penting untuk memahami opini publik, sehingga penelitian ini bertujuan untuk mengidentifikasi sentimen pada data teks media sosial melalui pendekatan pembelajaran terawasi. Dataset yang digunakan terdiri dari tweet dan ulasan produk yang telah dilabeli sentimen positif maupun negatif. Proses penelitian dilakukan melalui beberapa tahapan, yaitu prapemrosesan data (Removal of Stopwords, Lemmatization and Word Stemming, Spell Correction), Ekstraksi Fitur (N-Grm, Word count dan Tf-Idf Vectorizer) serta penerapan algoritma Multinomial Naive Bayes, dan Support Vector Machine (SVM). Hasil penelitian menunjukkan bahwa penghapusan stopwords menurunkan kinerja model, sehingga tetap menggunakan stopwords. Stemming dan lemmatization juga tidak memberikan pengaruh terhadap kinerja model, sedangkan spell correction dapat meningkatkan akurasi sekitar 2% tetapi dengan trade-off waktu komputasi yang tinggi. Pada tahap ekstraksi fitur, TF-IDF menghasilkan akurasi yang lebih tinggi dibandingkan Word Count. Algoritma Multinomial Naive Bayes menghasilkan akurasi sebesar 79,73% dengan AUC-ROC sebesar 0,85. Sedangkan SVM dengan kernel linear mendapatkan hasil terbaik dengan akurasi 82% dan AUC-ROC 0,88, lebih tinggi daripada RBF kernel yang hanya mencapai akurasi 77,79% dan AUC-ROC 0,82. Hasil penelitian ini dapat disimpulkan bahwa SVM dengan kernel linear lebih sesuai untuk klasifikasi teks berdimensi tinggi.
Copyrights © 2026