Pesan spam pada layanan Short Message Service (SMS) berpotensi menimbulkan gangguan maupun ancaman keamanan, khususnya ketika mengandung unsur phishing yang menargetkan informasi sensitif pengguna. Penelitian ini merancang dan mengevaluasi sistem deteksi spam SMS berbasis Convolutional Neural Network (CNN) dengan memanfaatkan kombinasi word embedding dari berbagai Model Bahasa Besar (Large Language Models). Proses penelitian mencakup tahapan preprocessing, pembangunan word embedding berdasarkan beragam model LLM, penerapan beberapa teknik penggabungan meliputi averaging, concatenation, concatenation + PCA, dan Mixture Of Expert (MoE) serta optimasi hyperparameter untuk mencapai performa terbaik. Hasil eksperimen menunjukkan teknik concatenation dikombinasikan dengan PCA untuk mereduksi dimensi, memberikan performa paling unggul, dengan kombinasi embedding LLaMA-2 dan Qwen2.5 menghasilkan akurasi 97.3%, F1-Score 89%, dan MCC 87.7% pada dataset multilingual, sedangkan kombinasi mBERT dan Qwen2.5 mencapai akurasi 97.9%, F1-Score 95%, dan MCC 93.5% pada dataset bilingual. Hasil penelitian ini menegaskan efektivitas penggabungan embedding berbasis model bahasa besar dalam meningkatkan representasi semantik dan kinerja CNN untuk deteksi spam SMS.
Copyrights © 2025