CESS (Journal of Computer Engineering, System and Science)
Vol. 10 No. 2 (2025): Juli 2025

Peningkatan Akurasi Named Entity Recognition (NER) Dengan Fine-Tuning BERT Pada Dataset Bahasa Indonesia

Fatih Muhammad, Aji (Unknown)
Hasibuan, Muhammad Siddik (Unknown)



Article Info

Publish Date
01 Aug 2025

Abstract

Named Entity Recognition (NER) merupakan salah satu tugas utama dalam bidang Natural Language Processing (NLP) yang bertujuan untuk mengenali dan mengklasifikasikan entitas seperti nama orang, organisasi, lokasi, dan tanggal di dalam teks. Meskipun banyak penelitian telah dilakukan untuk bahasa sumber daya tinggi seperti bahasa Inggris, bahasa Indonesia masih menghadapi keterbatasan, baik dari segi dataset maupun kompleksitas linguistik. Penelitian ini bertujuan untuk meningkatkan akurasi sistem NER berbahasa Indonesia dengan melakukan fine-tuning pada model BERT pra-latih, khususnya IndoBERT, menggunakan dataset NERGRIT yang telah dianotasi. Proses penelitian mencakup tahap pra-pemrosesan data, tokenisasi, pelatihan model, dan evaluasi kinerja menggunakan metrik precision, recall, dan F1-score. Model yang telah di-fine-tune diuji dengan berbagai kalimat dan menunjukkan peningkatan akurasi yang signifikan dibandingkan model dasar. Namun demikian, masih ditemukan beberapa permasalahan seperti prediksi berlebihan dan ketidaksesuaian pelabelan entitas. Hasil penelitian ini membuktikan bahwa fine-tuning BERT dapat secara signifikan meningkatkan performa NER dalam teks berbahasa Indonesia. Penelitian ini memberikan kontribusi terhadap pengembangan teknologi NLP bahasa Indonesia serta membuka peluang penerapan pada chatbot cerdas, sistem pemrosesan dokumen, dan analisis opini publik. Penelitian ini menunjukkan pendekatan yang berbeda dibandingkan studi terdahulu dengan mengadopsi dataset NERGRIT, yang mencakup 2.090 kalimat dan 41.871 token, serta mencakup 8 kategori entitas utama, seperti PER, ORG, LOC, DATE, MONEY, PRODUCT, EVENT, dan LAW. Dataset ini belum banyak digunakan dalam publikasi ilmiah, sehingga memberikan kontribusi orisinal dalam eksperimen pengembangan sistem NER untuk Bahasa Indonesia. Penelitian ini juga menggunakan model IndoBERT yang telah di-fine-tune sebelumnya pada dataset serupa, yaitu model hendri/nergrit, namun dilakukan pelatihan ulang (re-fine-tuning) guna meningkatkan kinerja pada konteks lokal dan sintaksis khas Bahasa Indonesia. Secara kuantitatif, penelitian ini berhasil meningkatkan performa model secara signifikan. Sebelum dilakukan fine-tuning, model dasar menghasilkan skor F1 sebesar 72,38%. Setelah melalui proses fine-tuning menggunakan dataset NERGRIT, model mencapai nilai F1-score sebesar 83,67%, dengan nilai precision sebesar 85,12% dan recall sebesar 82,24%. Peningkatan sebesar lebih dari 11 poin F1-score ini menunjukkan efektivitas pendekatan fine-tuning pada model BERT untuk NER Bahasa Indonesia. Selain evaluasi metrik klasik, penelitian ini juga menyertakan analisis kesalahan (error analysis) untuk mengevaluasi fenomena over- prediction dan ketidaksesuaian label entitas pada token umum. Analisis ini mengungkap bahwa meskipun model berhasil mengenali entitas seperti nama orang dan lokasi dengan confidence tinggi, masih terdapat kesalahan pada token non-entitas yang ikut dilabeli secara tidak akurat. Penambahan analisis kualitatif ini menjadi poin keunggulan yang jarang ditemui pada penelitian sejenis. Dengan demikian, kontribusi penelitian ini tidak hanya terletak pada pencapaian performa, tetapi juga pada pendekatan evaluatif yang menyeluruh, serta pemanfaatan dataset dan model yang relatif baru dalam lingkup NLP Bahasa Indonesia.

Copyrights © 2025






Journal Info

Abbrev

cess

Publisher

Subject

Computer Science & IT

Description

CESS (Journal of Computer Engineering, System and Science) contains articles on research results and conceptual studies in the fields of informatics engineering, computer science and information systems. The main topics published include: 1. Information security 2. Computer security 3. Networking & ...