Beben Sutara
Unknown Affiliation

Published : 3 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 3 Documents
Search

Perbandingan Kinerja XGBoost dan IndoBERT untuk Klasifikasi Teks Kesehatan Bahasa Indonesia Gumelar Syah Moeslim, Alif; Esa Firmansyah; Beben Sutara
Data Sciences Indonesia (DSI) Vol. 5 No. 2 (2025): Article Research Volume 5 Issue 2, Desember 2025
Publisher : Yayasan Cita Cendikiawan Al Kharizmi

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.47709/dsi.v5i2.7281

Abstract

Pertumbuhan pesat layanan kesehatan digital di Indonesia telah menghasilkan volume data tekstual yang masif. Data tanya jawab kesehatan, memberikan peluang yang signifikan untuk klasifikasi otomatis menggunakan machine learning. Namun, penerapannya dihadapkan pada dilema praktis antara memilih model machine learning klasik yang efisien atau mengadopsi model transformer modern yang akurat. Studi ini menguji trade-off tersebut dengan membandingkan Extreme Gradient Boosting (Xgboost) yang terkenal unggul dalam efisiensi, dengan Indonesia Bidirectional Encoder Representations from Transformers (IndoBERT) yang superior dalam pemahaman konteks bahasa. Kedua model dilatih dan dievaluasi pada dataset 10.000 data tanya jawab kesehatan bahasa Indonesia. Model XGBoost menggunakan vektorisasi TF-IDF, sementara model IndoBERT di-fine-tuning secara end-to-end. Kinerja keduanya dievaluasi menggunakan validasi silang 5-fold dengan metrik Akurasi, Presisi, Recall, F1-Score, dan efisiensi waktu. Hasil menunjukkan bahwa IndoBERT mencapai akurasi rata-rata lebih tinggi dibandingkan dengan XGBoost. Namun, keunggulan ini menuntut sumber daya lebih besar, di mana IndoBERT membutuhkan waktu pelatihan lebih lama dibandingkan XGBoost. Uji statistik paired t-test mengonfirmasi bahwa perbedaan kinerja akurasi ini signifikan secara statistik. Penelitian ini merumuskan sebuah kerangka keputusan praktis. IndoBERT unggul untuk aplikasi yang mengutamakan akurasi maksimal dengan sumber daya memadai, sementara XGBoost menawarkan efisien secara komputasi dan cepat untuk skenario real-time atau terbatas sumber daya dengan akurasi kompetitif.
Analisis Komparatif Linear Regression dan Support Vector Regression pada Prediksi Penduduk Kabupaten Sumedang Kaka Kalam Djati Permana; Esa Firmansyah; Beben Sutara
Data Sciences Indonesia (DSI) Vol. 5 No. 2 (2025): Article Research Volume 5 Issue 2, Desember 2025
Publisher : Yayasan Cita Cendikiawan Al Kharizmi

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.47709/dsi.v5i2.7423

Abstract

Perencanaan pembangunan daerah yang adaptif di Kabupaten Sumedang sangat bergantung pada ketersediaan data demografi yang presisi sebagai landasan pengambilan kebijakan publik. Namun, upaya pemodelan prediksi menghadapi tantangan teknis yang signifikan akibat karakteristik data historis yang terbatas (small dataset) serta keberadaan gangguan tren (structural break) berupa fluktuasi anomali data pada tahun 2020. Penelitian ini bertujuan untuk mengkomparasikan efektivitas kinerja algoritma Linear Regression sebagai model parametrik dan Support Vector Regression (SVR) berbasis kernel RBF yang dioptimasi menggunakan GridSearchCV sebagai model non-parametrik. Metodologi penelitian menerapkan teknik pra-pemrosesan normalisasi MinMax Scaler untuk mempertahankan struktur asli data yang tidak berdistribusi normal, serta menggunakan skema chronological split untuk validasi temporal yang objektif. Hasil evaluasi empiris menunjukkan bahwa Linear Regression memiliki performa yang jauh lebih unggul dan robust, mencatatkan nilai Root Mean Square Error (RMSE) sebesar 3.858 jiwa dan Koefisien Determinasi () 0,8265. Sebaliknya, meskipun telah melalui proses tuning, SVR mengalami kendala generalisasi atau bias struktural dengan nilai RMSE yang tinggi mencapai 8.810 jiwa, akibat sensitivitas berlebih terhadap pola penurunan data latih sehingga gagal menangkap tren pemulihan (rebound). Berdasarkan model terbaik, diproyeksikan jumlah penduduk akan tumbuh konstan sebesar 7.310 jiwa per tahun hingga mencapai estimasi 1,24 juta jiwa pada akhir tahun 2030. Temuan ini menyimpulkan bahwa pada kasus data terbatas dengan pola tren linier yang kuat, algoritma sederhana terbukti lebih andal dan stabil dibandingkan algoritma kompleks.
Analisis Clustering Menggunakan Metode K-Means dalam Penentuan Prioritas Operasional Penagihan Pajak Bumi dan Bangunan di Desa Gunasari Muhammad Anwar; Esa Firmansyah; Beben Sutara
Data Sciences Indonesia (DSI) Vol. 5 No. 2 (2025): Article Research Volume 5 Issue 2, Desember 2025
Publisher : Yayasan Cita Cendikiawan Al Kharizmi

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.47709/dsi.v5i2.7464

Abstract

Pajak Bumi Dan Bangunan (PBB) menjadi salah satu sumber penting pendapatan asli daerah yang berperan dalam membiayai pembangunan di Desa Gunasari yang dimana desa dituntut untuk mengoptimalkan pemungutan PBB dengan lebih efisien. Penelitian ini menggunakan pendekatan kuantitatif dengan metode analisi eksploratif untuk menetapkan skala prioritas penagihan PBB berdasrakan Clustering menggunakan data PBB yang diperoleh dari sistem administarsi desa dengan tujuan untuk dianalisis prioritas tagihan berdasarkan jalan. Data yang diperoleh diagregasi meenggunakan Feature Engineering sehingga diperoleh indikator jumlah wajib pajak yang menunggak dan total nilai PBB tertunggak untuk setiap jalan. Untuk menentukan jumlah cluster optimal Elbow Method dan Silhouette Score menunjukkan bahwa k=3 merupakan pilihan terbaik dengan skor siluer sebesar 0,713. Penerapan Algoritma K-Means membagi jalan menjadi tiga kelompok prioritas yaitu rendah, menengah dan tinggi yang dimana masing masing kelompok tersebut memiliki perbedaan dalam jumlah jalan, jumlah wajib pajak menunggak dan total PBB tertunggak dengan tujuan memberikan peluang bagi pemerintah desa untuk mengatur sumber daya penagihan dengan lebih efisien dan fokus pada beberapa jalan yang memiliki prioritas tinggi serta merancang strategi pemantauan dan sosialisasi berbasis data. Pendekatan ini terbukti memenuhi kaidah validitas statistik sekaligus menunjukan bahwa pendekatan tersebut dapat diimplementasikan secara praktis dalam pengelolaan PBB di Desa Gunasari.