Abstract: Mental health issues, particularly depression among young adult university students, are often detected late due to stigma and reluctance to seek medical consultation. The objective of this study is to develop an early screening model employing machine learning techniques, specifically the random forest algorithm, on a dataset of 268 students (aged 17-29 years; consisting of 98 males and 170 females) within a multicultural educational setting. The principal challenges associated with this dataset are class imbalance and the potential for data leakage from clinical scores. This study implements a rigorous feature selection approach that involves the elimination of depression score features and the utilization of the Synthetic Minority Over-sampling Technique (SMOTE) to balance the training data distribution. Furthermore, a Threshold Tuning strategy is employed to prioritize detection sensitivity (Recall). The findings indicate that reducing the decision threshold to an optimal value of 0.25 led to a substantial enhancement in the recall value, increasing it from 36% (baseline) to 77%. A feature importance analysis was conducted, the results of which indicated that Total Social Connectedness (ToSC) is the most dominant predictor. In summary, the present study corroborates the notion that optimizing sensitivity through threshold tuning is of paramount importance for medical screening. Furthermore, social isolation factors emerge as more significant indicators of depression risk than demographic attributes. Keywords: data mining; depression; imbalanced data; random forest; smote; threshold tuning Abstrak: Masalah kesehatan mental, khususnya depresi di kalangan mahasiswa dewasa muda, sering terdeteksi terlambat akibat stigma dan enggan mencari konsultasi medis. Tujuan studi ini adalah mengembangkan model skrining dini menggunakan teknik machine learning, khususnya algoritma random forest, pada dataset 268 mahasiswa (usia 17-29 tahun; terdiri dari 98 laki-laki dan 170 perempuan) dalam lingkungan pendidikan multikultural. Tantangan utama yang terkait dengan dataset ini adalah ketidakseimbangan kelas dan potensi kebocoran data dari skor klinis. Studi ini menerapkan pendekatan seleksi fitur yang ketat, yang melibatkan eliminasi fitur skor depresi dan penggunaan Teknik Over-sampling Minoritas Sintetis (SMOTE) untuk menyeimbangkan distribusi data pelatihan. Selain itu, strategi Penyesuaian Ambang Batas diterapkan untuk memprioritaskan sensitivitas deteksi (Recall). Hasil penelitian menunjukkan bahwa mengurangi ambang batas keputusan ke nilai optimal 0,25 menyebabkan peningkatan signifikan dalam nilai recall, dari 36% (dasar) menjadi 77%. Analisis pentingnya fitur dilakukan, hasilnya menunjukkan bahwa Total Social Connectedness (ToSC) adalah prediktor yang paling dominan. Secara ringkas, studi ini membenarkan bahwa mengoptimalkan sensitivitas melalui penyesuaian ambang batas sangat penting untuk skrining medis. Selain itu, faktor isolasi sosial muncul sebagai indikator risiko depresi yang lebih signifikan daripada atribut demografis. Kata kunci: penambangan data; depresi; data tidak seimbang; hutan acak; smote; penyesuaian ambang batas
Copyrights © 2026