Seiring dengan semakin maraknya penggunaan email, masalah spam menjadi semakin serius. Email spam tidak hanya mengganggu produktivitas pengguna, tetapi juga dapat mengandung malware atau phising yang membahayakan. Penelitian ini bertujuan untuk membangun model klasifikasi yang akurat untuk mendeteksi email spam menggunakan algoritma Naive Bayes. Dataset ini yang bersifat publik digunakan sebagai data latih dan uji. Proses preprocessing dilakukan dengan tahap tokenisasi, penghapusan stop word, dan stemming. Ekstraksi fitur dilakukan menggunakan n-gram (unigram dan bigram) untuk menangkap pola kata yang berurutan. Model Naive Bayes Multinomial dipilih karena kesederhanaannya dan efektifitasnya dalam menangani data teks. Hasil evaluasi menunjukkan bahwa model yang dibangun mampu mencapai akurasi sebesar 97% dalam mengklasifikasikan email sebagai spam atau non-spam. Visualisasi confusion matrix mengindikasikan bahwa model cenderung salah mengklasifikasikan email yang mengandung kata-kata teknis atau istilah yang tidak umum sebagai spam. Penelitian ini menyimpulkan bahwa algoritma Naive Bayes dapat menjadi pilihan yang baik untuk deteksi email spam, namun perlu dilakukan penelitian lebih lanjut untuk mengatasi tantangan seperti evolusi teknik spammer dan ketidakseimbangan data.
                        
                        
                        
                        
                            
                                Copyrights © 2024