Penelitian ini mengembangkan model prediksi kesehatan jiwa menggunakan algoritma Random Forest berbasis data klinis terstruktur dan tidak terstruktur dari pasien poli kejiwaan RSUD dr. R. Goeteng Taroenadibrata Purbalingga. Dataset terdiri dari 4.432 rekam medis yang mencakup parameter fisiologis serta catatan naratif yang diproses melalui cleaning, stemming Sastrawi, dan pembobotan TF-IDF. Evaluasi model dilakukan menggunakan dua skema pembagian data (85:15 dan 80:20) serta dua kondisi preprocessing (stemming dan non-stemming). Hasil menunjukkan bahwa jumlah data berpengaruh signifikan terhadap performa model, di mana akurasi meningkat dari 0,62–0,66 pada 1.000 data menjadi 0,79–0,81 pada 4.432 data. Namun, nilai presisi, recall, dan F1-score berbasis macro masih rendah akibat ketidak seimbangan kelas. Setelah diterapkan teknik oversampling SMOTE, performa model meningkat sangat signifikan dengan akurasi mencapai 0,9490 dan F1-score macro 0,9360. Pengukuran ROC-AUC sebesar 0,9991 menunjukkan kemampuan diskriminatif yang hampir sempurna. Perbandingan dengan algoritma lain menunjukkan bahwa Random Forest menghasilkan kinerja terbaik, melampaui SVM, Naive Bayes, dan Decision Tree. Hasil penelitian menegaskan potensi Random Forest untuk prediksi kesehatan jiwa berbasis data klinis terintegrasi, serta pentingnya penanganan class imbalance untuk meningkatkan performa pada kelas minoritas.
Copyrights © 2025