Creative Information Technology Journal
Vol 7, No 2 (2020): Juli - Desember

Pemilihan Parameter Terbaik pada Algoritma Winnowing dalam Mendeteksi Tingkat Kesamaan Dokumen Bahasa Indonesia

Wahyu Hidayat (Magister Teknik Informatika, Universitas AMIKOM Yogyakarta)
Ema Utami (Unknown)
Anggit Dwi Hartanto (Universitas AMIKOM Yogyakarta)



Article Info

Publish Date
31 Mar 2021

Abstract

Pengidentifikasian terkait plagiarisme terhadap dokumen berbahasa Indonesia telah dilakukan di penelitian terkait, untuk pendeteksi tingkat kesamaan dokumen. Dalam penelitian tersebut telah digunakan algoritma pendeteksi kesamaan dokumen dengan metode fingerprint sseperti Algoritma Winnowing. Algoritma Winnowing memiliki perbedaan pada penggunaan parameter seperti ada yang menggunakan k-gram dan n-gram. Dari perbedaan parameter tersebut dilakukan penelitian performa dari perbandingan penggunaan parameter yang berbeda pada pemotongan string pada tahap algoritma Winnowing sehingga dapat diketahui parameter yang mempunyai tingkat performa yang paling baik. Hasil penelitian pada k-gram memiliki tingkat nilai similarity yang tinggi namun ketika nilai jumlah k semakin besar akan mengurangi tingkat nilai similarit dengan rata-rata hasil pada k = 2 sebesar 0.5299, k = 3 sebesar 0.1689, k = 5 sebesar 0.0283 dan k = 7 sebesar 0.0095. Penerapan pemotongan string n-gram pada unigram memiliki rata-rata tingkat similarity sebesar 0.0683, bigram 0.003, pada trigram dan four-gram sebesar 0.000. Pada perbandingan kecepatan pemrosesan waktu k-gram dan n-gram tidak terlihat perbedaan yang signifikan dan keduanya mendominasi selama 6 detik.Kata Kunci—Algoritma Winnowing, Jaccard Similarity, Fingerprint, K-gram, N-gramIdentification related to plagiarism of Indonesian language documents has been carried out in related research, such as for the purpose of detecting the level of similarity documents. In this research, algorithm similarity detection algorithms have been used, especially with the fingerprint method wich Winnowing algorithm. Winnowing algorithm using parameters such as those using k-gram and n-gram. From these different parameters, a study of the performance of the comparison the use of different parameters in the string cutting at the Winnowing algorithm stage can be found out which parameter has the best level of performance. The results of research on k-gram have a high level of similarity value, but when the value of the number of k gets bigger it will reduce the level of similarity values with an average result at k = 2 of 0.5299, k = 3 of 0.1689, k = 5 of 0.0283 and k = 7 in the amount of 0.0095. The application of cutting n-gram strings on unigram has an average similarity level of 0.0683, bigram 0.003, on trigrams and four-grams of 0.000. In the comparison of the processing speed of k-gram and n-gram time, there was no significant difference, and both dominated for 6 seconds. Keywords— Winnowing algorithm, Jaccard Similarity, Fingerprint, K-gram, N-gram

Copyrights © 2020






Journal Info

Abbrev

citec

Publisher

Subject

Computer Science & IT Control & Systems Engineering Decision Sciences, Operations Research & Management Electrical & Electronics Engineering

Description

Creative Information Technology Journal (CITEC) merupakan jurnal yang berisi hasil penelitian ilmiah di bidang ilmu komputer, teknik komputer, informatika, sistem informasi, dan teknik industri. Jurnal ini bertujuan untuk menjembatani adanya kesenjangan antara kemajuan teknologi informasi secara ...