Dalam penelitian ini, dilakukan analisis bandingan yang mendalam terhadap tiga algoritma machine learning untuk mendeteksi spam SMS, yaitu Random Forest, Decision Tree, dan Naive Bayes. Dataset UCI SMS Spam Collection yang memiliki 5.572 pesan digunakan, dan pipeline penuh dijalankan mulai dari menghapus duplikat, ekstraksi fitur TF-IDF, sampai augmentasi data apabila perlu. Pada tahap prapemrosesan, terdapat 403 pesan duplikat yang dibuang (sekitar 7,2%), sehingga akhirnya tersisa 5.169 sampel unik. Model-model ini dilatih dengan split data 80-20 untuk latih dan uji, dan dievaluasi secara menyeluruh menggunakan metrik seperti akurasi, presisi, recall, F1-score, serta matriks kebingungan. Hasilnya menunjukkan ketiga algoritma ini memiliki performa yang sangat tinggi, dengan Naive Bayes yang paling unggul dengan akurasi mencapai 98,1%, lalu Random Forest 97,8%, dan Decision Tree 96,4%. Dari analisis kurva pembelajaran, model konvergen dengan baik dan tidak terlalu overfit. Penelitian ini juga memberikan enam visualisasi lengkap, mulai dari analisis duplikat, distribusi data, word cloud, breakdown split data latih-uji, kurva pembelajaran, sampai matriks kebingungan. Pendekatan machine learning klasik ternyata masih sangat efektif untuk deteksi spam SMS.
Copyrights © 2026