Jurnal Linguistik Komputasional
Vol 2 No 1 (2019): Vol. 2, No. 1

Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen

Muhammad Zidny Naf'an (Unknown)
Auliya Burhanuddin (Unknown)
Ade Riyani (Unknown)



Article Info

Publish Date
26 Mar 2019

Abstract

Plagiarisme merupakan tindakan mengambil sebagian atau seluruh ide seseorang berupa dokumen maupun teks tanpa mencantumkan sumber pengambilan informasi. Penelitian ini bertujuan untuk mendeteksi kemiripan dokumen teks menggunakan algoritma cosine similarity dan pembobotan TF-IDF sehingga dapat digunakan untuk menentukan nilai plagiarisme. Dokumen yang digunakan untuk perbandingan teks ini adalah abstrak bahasa Indonesia. Hasil penelitian yaitu saat dilakukan stemming nilai kemiripan lebih tinggi rata-rata 10% daripada tidak dilakukan proses stemming. Penelitian ini menghasilkan nilai similaritas diatas 50% untuk dokumen yang tingkat kemiripannya tinggi. Sedangkan untuk dokumen dengan tingkat kemiripan rendah atau tidak berplagiat menghasilkan nilai similarity dibawah 40%. Dengan metode yang digunakan pada preprocessing yang terdiri dari case folding, tokenizing, stopword removeal, dan stemming. Setelah proses preprocessing maka tahap selanjutnya dilakukan perhitungan pembobotan TF-IDF dan nilai kemiripan menggunakan cosine similarity sehingga mendapatkan nilai persentase kemiripan. Berdasarkan hasil percobaan algoritma cosine similarity dan pembobotan TF-IDF mampu menghasilkan nilai kemiripan dari masing-masing dokumen pembanding

Copyrights © 2019






Journal Info

Abbrev

jlk

Publisher

Subject

Computer Science & IT

Description

Jurnal Linguistik Komputasional (JLK) menerbitkan makalah orisinil di bidang lingustik komputasional yang mencakup, namun tidak terbatas pada : Phonology, Morphology, Chunking/Shallow Parsing, Parsing/Grammatical Formalisms, Semantic Processing, Lexical Semantics, Ontology, Linguistic Resources, ...