Stroke merupakan krisis kesehatan global yang menjadi penyebab utama kematian dan kecacatan. Deteksi lebih dini faktor stroke sangat penting untuk tindakan pencegahan yang efektif. Studi ini bertujuan untuk menganalisis karakteristik dataset stroke, mengkaji pengaruh teknik Hybrid Sampling (gabungan SMOTE dan Random UnderSampling) dalam mengatasi ketidakseimbangan data, serta mengevaluasi performa mode XGBoost. Penelitian ini menggunakan pendekatan kuantitatif eksperimen dengan dataset sekunder dari Kaggle. Penanganan ketidak seimbangan kelas dilakukan dengan Hybrid Sampling (gabungan SMOTE dan Random UnderSampling). Penerapan teknik Hybrid Sampling ini terbukti memberikan dampak signifikan pada kemampuan deteksi model, di mana nilai F1-Score pada kelas minoritas (stroke) yang semula bernilai 0,00 pada data asli (tanpa penanganan ketidakseimbangan) berhasil meningkat menjadi 0,25. Model dikembangkan menggunakan algoritma Extreme Gradient Boosting (XGBoost). Dataset memiliki ketidakseimbangan ekstrem dengan 4,8% pada kelas strok. Hasil evaluasi menunjukkan model XGBoost mencapai akurasi sebesar 89,4% pada data uji. Namun, performa pada kelas minoritas (stroke) masih rendah dengan recall 0,36 dan F1-Score 0,25. Meskipun XGBoost memberikan akurasi tinggi secara keseluruhan data yang signifikan. Diperlukan optimasi lebih lanjut melalui hyperparameter tuning atau algoritma boosting lainnya.
Copyrights © 2026