Panjang siklus menstruasi menjadi indikator utama dalam kesehatan reproduksi perempuan, namun perbedaan karakteristik individu dan ketidakteraturan siklus menyulitkan proses prediksi secara manual. Kondisi tersebut mendorong perlunya pendekatan berbasis data yang mampu menghasilkan prediksi panjang siklus menstruasi secara akurat dan konsisten. Penelitian ini bertujuan untuk melakukan evaluasi komparatif berbagai metode feature selection pada algoritma XGBoost Regression dalam memprediksi panjang siklus menstruasi. Dataset penelitian diperoleh dari Kaggle dan terdiri atas 162 data yang mencakup atribut fisiologis dan demografis perempuan. Tahapan penelitian meliputi preprocessing data, normalisasi menggunakan StandardScaler, pembagian data latih dan data uji dengan rasio 80:20, serta validasi 10-fold cross-validation untuk menguji stabilitas model. Empat skenario pemodelan dievaluasi, yaitu tanpa feature selection sebagai baseline, forward selection, backward elimination, dan optimized selection berbasis ensemble feature selection dari lima metode seleksi fitur. Hasil evaluasi menunjukkan bahwa metode forward selection memberikan performa terbaik dengan nilai R² sebesar 0,9005, RMSE 1,45 hari, MAE 0,57 hari, dan MAPE 1,73% (kesalahan relatif rata-rata < 2% terhadap panjang siklus 25-30 hari), serta meningkatkan nilai R² sebesar 0,1696 poin (dari 0,7309 menjadi 0,9005), setara dengan peningkatan relatif 23,2% terhadap nilai baseline. Temuan ini menunjukkan bahwa pemilihan metode feature selection yang tepat berpengaruh terhadap peningkatan performa prediktif dan stabilitas model XGBoost Regression dalam prediksi panjang siklus menstruasi.
Copyrights © 2026