Model machine learning di bidang kesehatan mampu mencapai akurasi tinggi, namun sering bersifat black box sehingga kurang transparan dan berpotensi menimbulkan bias terhadap kelompok sensitif. Penelitian ini bertujuan menganalisis performa, interpretabilitas, dan fairness model klasifikasi penyakit menggunakan lima dataset medis tabular, yaitu Alzheimer, Obesity, Hypertension, Stroke, dan Asthma dari Kaggle. Tahapan penelitian meliputi data cleaning, transformasi fitur, normalisasi, serta penanganan ketidakseimbangan kelas menggunakan SMOTE. Model dikembangkan menggunakan algoritma SVM dan Random Forest dengan optimasi hyperparameter melalui GridSearchCV serta validasi 5-fold cross-validation. Hasil penelitian menunjukkan bahwa Random Forest memberikan performa paling konsisten dengan akurasi tertinggi sebesar 96,92% pada dataset Obesity. Pada dataset tidak seimbang seperti Stroke dan Asthma, performa model menurun terutama pada precision dan F1-score akibat distribusi kelas yang tidak merata dan kompleksitas data. Analisis interpretabilitas menggunakan SHAP dan LIME menunjukkan bahwa model memanfaatkan fitur yang relevan secara klinis, seperti usia, tekanan darah, indeks massa tubuh, dan indikator fungsi kognitif. Evaluasi fairness menggunakan Demographic Parity Difference (DPD) dan Equal Opportunity Difference (EOD) menghasilkan nilai yang relatif kecil, sehingga distribusi prediksi antar kelompok sensitif, khususnya gender, tergolong cukup seimbang meskipun tetap dipengaruhi karakteristik data. Penelitian ini menegaskan bahwa integrasi performa, interpretabilitas, dan fairness dalam evaluasi multi-dataset memberikan pendekatan yang lebih komprehensif dibandingkan evaluasi konvensional yang hanya berfokus pada akurasi.
Copyrights © 2026