Jurnal Edukasi dan Penelitian Informatika (JEPIN)
Vol 11, No 3 (2025): Volume 11 No 3

TF-IDF vs IndoBERT: Pendekatan Statistik dan Kontekstual dalam Pengelompokan Surat Pemerintahan dengan Algoritma K-Means

Mayola, Liga (Unknown)
Syahputra, Hadi (Unknown)



Article Info

Publish Date
27 Dec 2025

Abstract

Digitalisasi administrasi pemerintahan menyebabkan peningkatan volume surat elektronik yang perlu dikelola secara efisien. Meskipun data surat bersifat semi-terstruktur, pengelompokan berbasis perihal masih menghadapi tantangan akibat variasi redaksi dan konteks bahasa. Penelitian ini bertujuan membandingkan kualitas pengelompokan surat pemerintahan menggunakan algoritma K-Means dengan dua pendekatan representasi teks, yaitu TF-IDF berbasis statistik dan IndoBERT berbasis kontekstual. Data yang digunakan terdiri dari 854 perihal surat masuk pada Aplikasi Srikandi. Hasil eksperimen menunjukkan bahwa IndoBERT menghasilkan kualitas clustering yang lebih baik dengan nilai Silhouette Score sebesar 0,2242 dan Calinski–Harabasz Index sebesar 171,4236, dibandingkan TF-IDF yang hanya mencapai Silhouette Score 0,0393 dan Calinski–Harabasz Index 35,2446. Sementara itu, nilai Davies–Bouldin Index pada TF-IDF (1,6508) sedikit lebih rendah dibandingkan IndoBERT (1,7388) yang menunjukkan bahwa TF-IDF cenderung membentuk cluster dengan jarak antar cluster yang relatif lebih dekat. Namun, jika ditinjau secara komprehensif, nilai Silhouette Score dan Calinski–Harabasz Index yang jauh lebih tinggi pada IndoBERT mengindikasikan bahwa cluster yang terbentuk lebih kohesif secara internal dan memiliki separasi semantik yang lebih jelas. Keunggulan IndoBERT terutama disebabkan oleh kemampuannya menangkap makna semantik dan konteks kata dalam perihal surat yang singkat namun bervariasi, sehingga menghasilkan struktur cluster yang lebih bermakna dibandingkan pendekatan statistik konvensional. Temuan ini menunjukkan bahwa representasi kontekstual lebih efektif dalam mendukung pengelompokan otomatis surat pemerintahan.

Copyrights © 2025






Journal Info

Abbrev

jepin

Publisher

Subject

Computer Science & IT Education

Description

Jurnal Edukasi dan Penelitian Informatika (JEPIN) merupakan peer reviewed journal di bidang informatika. Jurnal ini diterbitkan 3 bulan dalam setahun (April, Agustus, dan Desember) oleh Program Studi Informatika, Fakultas Teknik, Universitas Tanjungpura, ...