Penelitian ini membahas sistem analisis kemiripan kalimat menggunakan metode cosine similarity dengan fokus pada optimasi tahap pra-pemrosesan. Masalah utama yang diangkat adalah kebutuhan untuk mengenali pola angka Romawi dalam teks yang sering muncul dalam penamaan kelas atau bab dokumen. Metode yang digunakan melibatkan proses case folding, tokenizing, filtering, stemming, serta penggunaan regular expression untuk mendeteksi angka Romawi. Hasil pengujian menunjukkan sistem berhasil mengonversi angka Romawi dengan akurat. Namun, ditemukan kelemahan dalam konteks linguistik, seperti kesalahan interpretasi huruf pada nama khas daerah yang menyerupai pola angka Romawi. Hal ini menunjukkan perlunya integrasi pendekatan berbasis konteks untuk meningkatkan akurasi sistem. Untuk pengembangan lebih lanjut, disarankan penggunaan metode pembobotan tambahan atau pendekatan berbasis BERT guna meningkatkan pemahaman semantik kalimat.
Copyrights © 2025