ABSTRAKKetidakseimbangan kelas merupakan tantangan dalam klasifikasi sentimen pada data media sosial, yang menyebabkan model klasifikasi menjadi bias terhadap kelas mayoritas dan berkinerja buruk pada kelas minoritas. Penelitian ini mengusulkan pendekatan penyeimbangan data berbasis N-Gram untuk mengatasi masalah tersebut dan meningkatkan performa klasifikasi. Tiga model machine learning, yaitu XGBoost, Random Forest, dan Support Vector Machine (SVM), dievaluasi pada dataset yang tidak seimbang maupun seimbang menggunakan akurasi, presisi, recall, dan F1-score sebagai metrik evaluasi. Hasil eksperimen menunjukkan bahwa penyeimbangan data meningkatkan performa semua model tanpa menurunkan kemampuan generalisasi. SVM mencapai performa terbaik pada dataset seimbang dengan akurasi 0,86, presisi 0,87, recall 0,86, dan F1-score 0,86. XGBoost dan Random Forest juga menunjukkan peningkatan performa yang signifikan setelah penyeimbangan, menunjukkan kemampuan yang lebih baik dalam mendeteksi kelas minoritas. Secara keseluruhan, temuan ini menegaskan bahwa pendekatan penyeimbangan data berbasis N-Gram yang diusulkan efektif dalam mengurangi ketidakseimbangan kelas dan meningkatkan ketahanan serta keandalan model klasifikasi sentimen.Kata kunci: klasifikasi sentimen, ketidakseimbangan kelas, n-gram, media sosialABSTRACTClass imbalance is a challenge in sentiment classification of social media data, often causing classification models to be biased toward majority classes and perform poorly on minority classes. This study proposes an N-Gram-based data balancing approach to address this issue and improve classification performance. Three machine learning models, namely XGBoost, Random Forest, and Support Vector Machine (SVM), were evaluated on both imbalanced and balanced datasets using accuracy, precision, recall, and F1-score as evaluation metrics. The experimental results demonstrate that data balancing consistently enhances performance across all models without degrading generalization capability. Among the evaluated methods, SVM achieves the best performance on the balanced dataset, reaching an accuracy of 0.86, precision of 0.87, recall of 0.86, and F1-score of 0.86. XGBoost and Random Forest also show substantial performance improvements after balancing, indicating improved detection of minority sentiment classes. Overall, the findings confirm that the proposed N-Gram-based data balancing approach effectively mitigates class imbalance and improves the robustness and reliability of sentiment classification models.Keywords: Sentiment Classification, Class Imbalance, N-Gram, Social Media
Copyrights © 2026