Abstrak - Customer churn adalah sebuah keadaan di mana pelanggan menghentikan hubungan bisnis dengan sebuah usaha. Kemampuan untuk memprediksi customer churn merupakan salah satu faktor penting dalam perencanaan bisnis. Umumnya data customer churn tidak seimbang, dan menjadi tantangan signifikan dalam pembelajaran mesin. Untuk mengatasi masalah ini, pendekatan yang paling sering digunakan adalah oversampling. Metode yang populer adalah SMOTE, yang bisa meningkatkan peforma model, namun juga bisa menyebabkan overfitting. Telah banyak penelitian dilakukan dengan menggunakan oversampling dalam menghadapi data tidak seimbang. Tetapi masih sedikit penelitian yang fokus pada pemilihan model klasifikasi berdasarkan metrik yang sesuai, tanpa menggunakan oversampling. Penelitian ini menguji model-model klasifikasi dalam memprediksi customer churn terhadap data tidak seimbang, baik dengan maupun tanpa menggunakan SMOTE, untuk perbandingan hasil cross-validation dan performa pengujian. Kemudian model-model ini dievaluasi menggunakan metrik Balanced Accuracy. Kebaruan terletak pada fokus bahwa pemilihan model berdasarkan kombinasi ROC AUC dan Recall, bisa menemukan model prediksi customer churn terbaik tanpa harus menggunakan oversampling. Diharapkan hasil ini dapat berkontribusi dalam memperluas wawasan dari asumsi bahwa data tidak seimbang selalu harus diatasi menggunakan oversampling.Kata kunci : Pemilihan model; Data tidak seimbang; Tanpa oversampling; ROC AUC; Recall; Abstract - Customer churn refers to the phenomenon in which a customer ends their relationship with a company. Being able to predict customer churn is crucial for business planning. However, customer churn data is often imbalance, making it a major challenge for machine learning. One way to tackle this issue is oversampling. A widely used approach is SMOTE, which can boost model performance but also risks overfitting. There have been many studies using oversampling to address imbalanced data. However, there's a lack of research on selecting a classification model based on suitable metrics without relying on oversampling. This study evaluates classification models for predicting customer churn on imbalanced datasets, comparing performance with and without the application of SMOTE using cross-validation and test results. Subsequently, the models are evaluated using the Balanced Accuracy metric. This study introduces a novel approach in which model selection based on a combination of ROC AUC and Recall identifies the optimal customer churn prediction model without the need for oversampling. These results may broaden understanding beyond the prevailing assumption that imbalanced data must always be addressed using oversampling.Keywords: Model selection; Data imbalance; Without oversampling; ROC AUC; Recall
Copyrights © 2025