Pertumbuhan pesat layanan kesehatan digital di Indonesia telah menghasilkan volume data tekstual yang masif. Data tanya jawab kesehatan, memberikan peluang yang signifikan untuk klasifikasi otomatis menggunakan machine learning. Namun, penerapannya dihadapkan pada dilema praktis antara memilih model machine learning klasik yang efisien atau mengadopsi model transformer modern yang akurat. Studi ini menguji trade-off tersebut dengan membandingkan Extreme Gradient Boosting (Xgboost) yang terkenal unggul dalam efisiensi, dengan Indonesia Bidirectional Encoder Representations from Transformers (IndoBERT) yang superior dalam pemahaman konteks bahasa. Kedua model dilatih dan dievaluasi pada dataset 10.000 data tanya jawab kesehatan bahasa Indonesia. Model XGBoost menggunakan vektorisasi TF-IDF, sementara model IndoBERT di-fine-tuning secara end-to-end. Kinerja keduanya dievaluasi menggunakan validasi silang 5-fold dengan metrik Akurasi, Presisi, Recall, F1-Score, dan efisiensi waktu. Hasil menunjukkan bahwa IndoBERT mencapai akurasi rata-rata lebih tinggi dibandingkan dengan XGBoost. Namun, keunggulan ini menuntut sumber daya lebih besar, di mana IndoBERT membutuhkan waktu pelatihan lebih lama dibandingkan XGBoost. Uji statistik paired t-test mengonfirmasi bahwa perbedaan kinerja akurasi ini signifikan secara statistik. Penelitian ini merumuskan sebuah kerangka keputusan praktis. IndoBERT unggul untuk aplikasi yang mengutamakan akurasi maksimal dengan sumber daya memadai, sementara XGBoost menawarkan efisien secara komputasi dan cepat untuk skenario real-time atau terbatas sumber daya dengan akurasi kompetitif.
Copyrights © 2025