Penelitian ini menekankan pada teknik pra-anotasi untuk pengembangan model Named Entity Recognition ( NER ) dalam domain medis, khususnya pada laporan radiologi hati. Salah satu kendala utama dalam pengembangan model Named Entity Recognition ( NER) adalah terbatasnya ketersediaan data beranotasi. Tantangan ini semakin kompleks ketika di hadapkan dengan skema anotasi yang di implementasikan pada data privat. Untuk menangani hal tersebut, penelitian ini mengusulkan metode pendekatan penyusunan dataset Named Entity Recognition ( NER ) yang berkualitas guna meningkatkan performa model. Proses penelitian di mulai dengan pembuatan silver corpus melalui proses pra-anotasi semi otomatis. Pada tahap ini dimulai dengan pembersihan data laporan radiologi, kemudian tahap selanjutnya memasukkan data yang telah di bersihkan ke dalam kamus terminologi medis ( Radlex ) untuk memetakan dan memberi label pada entitas medis yang relevan. Hasil anotasi terminologi medis tersebut kemudian divalidasi untuk menghasilkan gold corpus sebagai data anotasi final. Untuk mengukur kinerja pendekatan ini, dilakukan perbandingan anatara performa model BioBERT yang telah di fine-tune menggunakan hasil anotasi melalui tahap dari skema yang diusulkan dan model yang dilatih menggunakan data hasil anotasi manual melalui Label Studio. Hasil eksperimen menunjukkan bahwa model yang dilatih menggunakan korpus pre-anotasi Radlex memberikan peningkatan performa 45% dibandingkan dengan anotasi manual, sekaligus menghasilkan efesiensi waktu dalam proses pengerjaan.
Copyrights © 2025