Gumelar Syah Moeslim, Alif
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Perbandingan Kinerja XGBoost dan IndoBERT untuk Klasifikasi Teks Kesehatan Bahasa Indonesia Gumelar Syah Moeslim, Alif; Esa Firmansyah; Beben Sutara
Data Sciences Indonesia (DSI) Vol. 5 No. 2 (2025): Article Research Volume 5 Issue 2, Desember 2025
Publisher : Yayasan Cita Cendikiawan Al Kharizmi

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.47709/dsi.v5i2.7281

Abstract

Pertumbuhan pesat layanan kesehatan digital di Indonesia telah menghasilkan volume data tekstual yang masif. Data tanya jawab kesehatan, memberikan peluang yang signifikan untuk klasifikasi otomatis menggunakan machine learning. Namun, penerapannya dihadapkan pada dilema praktis antara memilih model machine learning klasik yang efisien atau mengadopsi model transformer modern yang akurat. Studi ini menguji trade-off tersebut dengan membandingkan Extreme Gradient Boosting (Xgboost) yang terkenal unggul dalam efisiensi, dengan Indonesia Bidirectional Encoder Representations from Transformers (IndoBERT) yang superior dalam pemahaman konteks bahasa. Kedua model dilatih dan dievaluasi pada dataset 10.000 data tanya jawab kesehatan bahasa Indonesia. Model XGBoost menggunakan vektorisasi TF-IDF, sementara model IndoBERT di-fine-tuning secara end-to-end. Kinerja keduanya dievaluasi menggunakan validasi silang 5-fold dengan metrik Akurasi, Presisi, Recall, F1-Score, dan efisiensi waktu. Hasil menunjukkan bahwa IndoBERT mencapai akurasi rata-rata lebih tinggi dibandingkan dengan XGBoost. Namun, keunggulan ini menuntut sumber daya lebih besar, di mana IndoBERT membutuhkan waktu pelatihan lebih lama dibandingkan XGBoost. Uji statistik paired t-test mengonfirmasi bahwa perbedaan kinerja akurasi ini signifikan secara statistik. Penelitian ini merumuskan sebuah kerangka keputusan praktis. IndoBERT unggul untuk aplikasi yang mengutamakan akurasi maksimal dengan sumber daya memadai, sementara XGBoost menawarkan efisien secara komputasi dan cepat untuk skenario real-time atau terbatas sumber daya dengan akurasi kompetitif.