Ketidakseimbangan kelas (class imbalance) pada klasifikasi berita Indonesia kerap memicu bias model terhadap kelas mayoritas. Meski augmentasi data menjadi solusi umum, studi yang mengukur efisiensi metode ini pada korpus lokal masih minim terutama yang secara spesifik menyoroti keseimbangan antara peningkatan akurasi dan beban komputasi. Penelitian ini membandingkan efisiensi Easy Data Augmentation (EDA), Back-Translation (BT), dan metode berbasis LLM menggunakan klasifikasi XGBoost. Efisiensi diukur melalui rasio peningkatan Macro F1-Score terhadap waktu komputasi (ΔF1/detik). Guna menjamin validitas, metode EDA dan LLM diuji dalam sepuluh iterasi, sedangkan BT dibatasi pada pengujian tunggal (single-run) akibat kendala biaya. Signifikansi perbedaan performa antar metode divalidasi menggunakan uji statistik Friedman dan Post-hoc Dunn. Hasil eksperimen menempatkan BT sebagai metode paling efisien karena kemampuannya mempertahankan koherensi semantik teks. Hasil kontras ditunjukkan oleh EDA yang justru menghasilkan efisiensi negatif dan merusak performa model. Sementara itu, LLM menempati posisi moderat dengan variabilitas hasil yang lebih tinggi dibanding BT. Disimpulkan bahwa terlepas dari tingginya biaya API, Back-Translation merupakan pendekatan paling efisien untuk menangani ketidakseimbangan data berita. Oleh karena itu, penelitian selanjutnya disarankan mengeksplorasi alternatif model open-source maupun arsitektur Transformer untuk validasi yang lebih komprehensif.
Copyrights © 2026