Representasi teks merupakan komponen esensial dalam sistem analisis sentimen, karena menentukan bagaimana data teks diubah menjadi fitur numerik yang dapat dimanfaatkan oleh algoritma klasifikasi. Penelitian ini bertujuan untuk menganalisis pengaruh dua teknik representasi teks populer, yaitu Bag-of-Words (BoW) dan Term Frequency–Inverse Document Frequency (TF-IDF), terhadap performa klasifikasi sentimen teks pendek dalam konteks multi-domain. Dataset yang digunakan merupakan hasil kombinasi antara data asli dan data augmentasi berbasis sinonim, dengan total 418 entri teks. Dua algoritma pembelajaran mesin yang digunakan dalam evaluasi adalah Ridge Classifier dan Complement Naïve Bayes. Penilaian dilakukan menggunakan teknik validasi silang Stratified K-Fold serta empat metrik evaluasi utama: akurasi, presisi, recall, dan F1-score. Hasil eksperimen menunjukkan bahwa representasi TF-IDF secara konsisten memberikan performa lebih baik dibandingkan BoW pada kedua model. Konfigurasi terbaik dicapai oleh Ridge Classifier dengan TF-IDF, yang memperoleh akurasi sebesar 0,911 dan F1-score sebesar 0,908. Temuan ini menggarisbawahi pentingnya pemilihan teknik representasi fitur yang tepat dalam meningkatkan efektivitas sistem klasifikasi sentimen berbasis teks.
Copyrights © 2025