Penelitian ini bertujuan untuk menganalisis kinerja algoritma machine learning dalam mengklasifikasikan risiko terkait HIV berbasis indikator infeksi oportunistik pada data agregat populasi. Dataset diperoleh dari Kaggle yang berisi data kematian global, dengan variabel target dikonstruksi menjadi klasifikasi biner berdasarkan median jumlah kematian HIV/AIDS untuk merepresentasikan kategori risiko tinggi dan rendah pada tingkat populasi, bukan diagnosis individu. Tahapan penelitian meliputi preprocessing data, penanganan ketidakseimbangan menggunakan SMOTE pada data latih, seleksi fitur berbasis domain klinis, serta pelatihan model menggunakan Random Forest, Support Vector Machine (SVM), dan Logistic Regression dengan optimasi GridSearchCV dan cross-validation. Hasil penelitian menunjukkan bahwa Random Forest memberikan performa terbaik dengan akurasi 98,56% dan AUC 0,99. Namun, performa ini perlu diinterpretasikan secara hati-hati karena dipengaruhi oleh tingginya korelasi antar fitur serta konstruksi target berbasis median yang dapat menyederhanakan pola klasifikasi. Penelitian ini menunjukkan bahwa machine learning dapat digunakan untuk mengidentifikasi pola risiko terkait HIV pada data agregat populasi, tetapi model yang dihasilkan tidak ditujukan untuk diagnosis klinis individu, melainkan sebagai alat analisis risiko pada tingkat populasi.
Copyrights © 2026