Jurnal Nasional Komputasi dan Teknologi Informasi
Vol 8, No 5 (2025): Oktober 2025

Pemilihan Model Churn pada Data Tidak Seimbang Berdasarkan ROC AUC dan Recall

Aswar Hanif (Universitas Bina Sarana Informatika)
Harna Adianto (Universitas Bina Sarana Informatika)
Lilik Martanto (Universitas Bina Sarana Informatika)
Endang Wahyudi (Universitas Bina Sarana Informatika)



Article Info

Publish Date
12 Oct 2025

Abstract

Abstrak - Customer churn adalah sebuah keadaan di mana pelanggan menghentikan hubungan bisnis dengan sebuah usaha. Kemampuan untuk memprediksi customer churn merupakan salah satu faktor penting dalam perencanaan bisnis. Umumnya data customer churn tidak seimbang, dan menjadi tantangan signifikan dalam pembelajaran mesin. Untuk mengatasi masalah ini, pendekatan yang paling sering digunakan adalah oversampling. Metode yang populer adalah SMOTE, yang bisa meningkatkan peforma model, namun juga bisa menyebabkan overfitting. Telah banyak penelitian dilakukan dengan menggunakan oversampling dalam menghadapi data tidak seimbang. Tetapi masih sedikit penelitian yang fokus pada pemilihan model klasifikasi berdasarkan metrik yang sesuai, tanpa menggunakan oversampling. Penelitian ini menguji model-model klasifikasi dalam memprediksi customer churn terhadap data tidak seimbang, baik dengan maupun tanpa menggunakan SMOTE, untuk perbandingan hasil cross-validation dan performa pengujian. Kemudian model-model ini dievaluasi menggunakan metrik Balanced Accuracy. Kebaruan terletak pada fokus bahwa pemilihan model berdasarkan kombinasi ROC AUC dan Recall, bisa menemukan model prediksi customer churn terbaik tanpa harus menggunakan oversampling. Diharapkan hasil ini dapat berkontribusi dalam memperluas wawasan dari asumsi bahwa data tidak seimbang selalu harus diatasi menggunakan oversampling.Kata kunci : Pemilihan model; Data tidak seimbang; Tanpa oversampling; ROC AUC; Recall; Abstract - Customer churn refers to the phenomenon in which a customer ends their relationship with a company. Being able to predict customer churn is crucial for business planning. However, customer churn data is often imbalance, making it a major challenge for machine learning. One way to tackle this issue is oversampling. A widely used approach is SMOTE, which can boost model performance but also risks overfitting. There have been many studies using oversampling to address imbalanced data. However, there's a lack of research on selecting a classification model based on suitable metrics without relying on oversampling. This study evaluates classification models for predicting customer churn on imbalanced datasets, comparing performance with and without the application of SMOTE using cross-validation and test results. Subsequently, the models are evaluated using the Balanced Accuracy metric. This study introduces a novel approach in which model selection based on a combination of ROC AUC and Recall identifies the optimal customer churn prediction model without the need for oversampling. These results may broaden understanding beyond the prevailing assumption that imbalanced data must always be addressed using oversampling.Keywords: Model selection; Data imbalance; Without oversampling; ROC AUC; Recall

Copyrights © 2025






Journal Info

Abbrev

jnkti

Publisher

Subject

Aerospace Engineering Automotive Engineering Computer Science & IT Control & Systems Engineering Decision Sciences, Operations Research & Management Electrical & Electronics Engineering Engineering Neuroscience Transportation

Description

Jurnal Nasional Komputasi dan Teknologi Informasi adalah jurnal nasional yang diterbitkan oleh Program Studi Teknik Komputer Universitas Serambi Mekkah tahun 2018 dan telah Terakreditasi SINTA 5. Jurnal ini terbit sebanyak enam edisi dalam satu tahun yaitu setiap bulan Februari, April, Juni, ...