Prediksi respons nasabah merupakan masalah penting dalam pemasaran perbankan berbasis data, terutama karena kampanye langsung harus menyeimbangkan efisiensi biaya, ketepatan penargetan, dan kemampuan mengenali calon nasabah yang benar-benar berpotensi merespons. Penelitian ini memperkuat evaluasi model prediksi kampanye Bank Marketing dengan dua prinsip metodologis, yaitu leakage-aware evaluation dan imbalance-sensitive evaluation. Atribut duration dikeluarkan dari model karena hanya diketahui setelah panggilan selesai sehingga berpotensi menimbulkan target leakage. Empat algoritma klasifikasi, yaitu Logistic Regression, K-Nearest Neighbor, Decision Tree, dan Random Forest, dievaluasi pada dataset bank.csv UCI yang berisi 4.521 observasi dengan distribusi kelas tidak seimbang, yaitu 4.000 kelas no dan 521 kelas yes. Eksperimen menggunakan train-validation-test stratified split, preprocessing berbasis standardisasi dan one-hot encoding, tuning hyperparameter melalui stratified cross-validation, serta evaluasi dengan accuracy, precision, recall, F1-score, F2-score, balanced accuracy, Matthews correlation coefficient, ROC-AUC, PR-AUC, dan confusion matrix. Selain evaluasi baseline pada threshold 0,50, penelitian ini juga menerapkan threshold tuning berbasis validasi dengan kriteria F2-score untuk meningkatkan sensitivitas terhadap kelas positif. Hasil menunjukkan bahwa Random Forest memiliki performa paling seimbang. Pada threshold 0,50, Random Forest memperoleh ROC-AUC 0,7576, PR-AUC 0,3743, MCC 0,2830, dan recall 0,4231. Setelah threshold dituning menjadi 0,39, recall Random Forest meningkat menjadi 0,7019 dengan F2-score 0,4980 dan balanced accuracy 0,6987. Temuan ini menunjukkan bahwa pemilihan model untuk kampanye pemasaran tidak cukup hanya berdasarkan accuracy, tetapi perlu mempertimbangkan trade-off antara recall, precision, false negative, dan tujuan operasional kampanye.
Copyrights © 2026