Network Engineering Research Operation [NERO]
Vol 7, No 2 (2022): NERO

UJI KEMIRIPAN KALIMAT MENGGUNAKAN FUNGSI TERBILANG PADA PRE-PROCESSING DAN COSINE SIMILARITY DALAM BAHASA INDONESIA

Ardi Sanjaya (Universitas Nusantara PGRI Kediri)
Sempu Dwi Sasongko (Universitas Nusantara PGRI Kediri)



Article Info

Publish Date
08 Nov 2022

Abstract

Proses stopword/filtering pada pre-processing di beberapa penelitian terdahulu cenderung membuang kata yang dianggap tidak perlu, termasuk angka dan beberapa tanda baca. Berdasarkan pengamatan peneliti, kalimat yang diuji atau dibandingkan terkadang terdari atas susunan kompleks berupa kata, angka dan tanda baca. Penelitian ini bertujuan untuk meningkatkan atau optimasi kinerja uji kemiripan kalimat berbahasa Indonesia dengan menambahkan fungsi terbilang pada pre-processing. Pada tahap pre-processing, setiap kata akan dideteksi apabila terdapat unsur angka baik itu bulat atau pecahan desimal maka akan dikonversi menjadi bentuk teks atau kata. Beberapa tanda baca seperti tanda persen juga diubah ke bentuk teks. Uji kemiripan kalimat menggunakan cosine similarity. Pengujian menggunakan data yang telah dipastikan susunannya kompleks namun memiliki kemiripan yang mendekati oleh pakar terkait. Pada pengujian juga dilakukan perbandingkan antara pre-processing yang menggunakan fungsi terbilang dan yang tidak. Berdasarkan hasil pengujian, didapati 12 pengujian dari 13 pengujian (92,30%) memiliki peningkatan nilai kemiripan dibandingkan pada pre-processing yang tidak menggunakan fungsi terbilang. Nilai kemiripan tergantung pada susunan masing-masing kalimat yang diuji.

Copyrights © 2022