Data Sciences Indonesia (DSI)
Vol. 5 No. 2 (2025): Article Research Volume 5 Issue 2, Desember 2025

Perbandingan Kinerja XGBoost dan IndoBERT untuk Klasifikasi Teks Kesehatan Bahasa Indonesia

Gumelar Syah Moeslim, Alif (Unknown)
Esa Firmansyah (Unknown)
Beben Sutara (Unknown)



Article Info

Publish Date
13 Dec 2025

Abstract

Pertumbuhan pesat layanan kesehatan digital di Indonesia telah menghasilkan volume data tekstual yang masif. Data tanya jawab kesehatan, memberikan peluang yang signifikan untuk klasifikasi otomatis menggunakan machine learning. Namun, penerapannya dihadapkan pada dilema praktis antara memilih model machine learning klasik yang efisien atau mengadopsi model transformer modern yang akurat. Studi ini menguji trade-off tersebut dengan membandingkan Extreme Gradient Boosting (Xgboost) yang terkenal unggul dalam efisiensi, dengan Indonesia Bidirectional Encoder Representations from Transformers (IndoBERT) yang superior dalam pemahaman konteks bahasa. Kedua model dilatih dan dievaluasi pada dataset 10.000 data tanya jawab kesehatan bahasa Indonesia. Model XGBoost menggunakan vektorisasi TF-IDF, sementara model IndoBERT di-fine-tuning secara end-to-end. Kinerja keduanya dievaluasi menggunakan validasi silang 5-fold dengan metrik Akurasi, Presisi, Recall, F1-Score, dan efisiensi waktu. Hasil menunjukkan bahwa IndoBERT mencapai akurasi rata-rata lebih tinggi dibandingkan dengan XGBoost. Namun, keunggulan ini menuntut sumber daya lebih besar, di mana IndoBERT membutuhkan waktu pelatihan lebih lama dibandingkan XGBoost. Uji statistik paired t-test mengonfirmasi bahwa perbedaan kinerja akurasi ini signifikan secara statistik. Penelitian ini merumuskan sebuah kerangka keputusan praktis. IndoBERT unggul untuk aplikasi yang mengutamakan akurasi maksimal dengan sumber daya memadai, sementara XGBoost menawarkan efisien secara komputasi dan cepat untuk skenario real-time atau terbatas sumber daya dengan akurasi kompetitif.

Copyrights © 2025






Journal Info

Abbrev

dsi

Publisher

Subject

Computer Science & IT Education Physics

Description

Data Sciences Indonesia (DSI) adalah jurnal yang memuat hasil penelitian atau kajian ilmu di bidang Ilmu komputer dengan mengambil ranah Data Sciende dan pendukung keilmuan tersebut. Data Sciences Indonesia (DSI) terbit setiap dua kali dalam setahun, yaitu pada bulan Juni dan Desember. Data Sciences ...