Claim Missing Document
Check
Articles

Found 22 Documents
Search

Comparison of TF-IDF and Word2Vec Feature Representations for Emotion Classification of Tokopedia E-Commerce Review Using LinearSVC Azzahra, Fitriyani; Irawan, Bambang; Faqih, Ahmad; Pratama, Denni; Kurnia, Dian Ade
Journal of Artificial Intelligence and Engineering Applications (JAIEA) Vol. 5 No. 2 (2026): February 2026
Publisher : Yayasan Kita Menulis

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.59934/jaiea.v5i2.2215

Abstract

This study aims to compare the performance of TF-IDF and Word2Vec feature representations for emotion classification of Tokopedia e-commerce reviews using the LinearSVC algorithm. The dataset used is PRDECT-ID, which consists of 5,400 Indonesian-language reviews labeled with positive and negative emotions. The preprocessing stages include case folding, non-alphabet character cleaning, slang normalization, stopword removal, Sastrawi stemming, and emoji handling. Feature extraction was performed using TF-IDF and Word2Vec, after which the models were trained using LinearSVC and evaluated through 5-Fold Cross Validation and holdout testing. The experimental results show that TF-IDF achieves better performance, with an accuracy of 0.65, a macro-F1 score of 0.645, and a Cohen’s Kappa value of 0.294. Meanwhile, Word2Vec attains an accuracy of 0.58 and a macro-F1 score of 0.540. These findings indicate that TF-IDF is more effective for short and informal texts characteristic of Indonesian e-commerce reviews.
Algoritma LightGBM dengan SMOTE & ADASYN untuk Prediksi Risiko Serangan Jantung Sugianto, Nanda Putri; Purnamasari, Ade Irma; Pratama, Denni; Marta, Puji Pramudya; Wijaya, Yudhistira Arie
JSR : Jaringan Sistem Informasi Robotik Vol 10, No 1 (2026): JSR : Jaringan Sistem Informasi Robotik
Publisher : AMIK Mitra Gama

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.58486/jsr.v10i1.633

Abstract

Ketidakseimbangan data merupakan tantangan utama dalam pemodelan prediksi medis, termasuk prediksi serangan jantung, karena jumlah kasus positif jauh lebih sedikit dibandingkan kasus negatif sehingga menurunkan kemampuan model dalam mendeteksi pasien berisiko tinggi. Penelitian ini bertujuan untuk membandingkan efektivitas dua teknik oversampling, yaitu Synthetic Minority Oversampling Technique (SMOTE) dan Adaptive Synthetic Sampling (ADASYN), dalam meningkatkan performa algoritma Light Gradient Boosting Machine (LightGBM) untuk prediksi risiko serangan jantung. Dataset berjumlah 1.319 sampel dengan sembilan fitur klinis dan dianalisis melalui tahapan pra-pemrosesan, normalisasi, penanganan class imbalance, pembangunan model, serta evaluasi menggunakan Accuracy, Precision, Recall, F1-Score, dan AUC-ROC. Hasil menunjukkan bahwa model baseline memiliki akurasi tinggi namun sensitivitas terhadap kelas positif masih rendah. Setelah diterapkan oversampling, model mengalami peningkatan signifikan. LightGBM-SMOTE memperoleh F1-Score terbesar (0.9876) dan AUC-ROC 0.9853, sedangkan LightGBM-ADASYN mencapai F1-Score 0.9855 dan AUC-ROC 0.9861. Temuan ini menunjukkan bahwa SMOTE memberikan peningkatan performa yang lebih stabil dalam mendeteksi kelas minoritas. Dengan demikian, teknik oversampling khususnya SMOTE terbukti efektif untuk meningkatkan akurasi dan sensitivitas model prediksi serangan jantung.