Journal of Internet and Software Engineering
Vol 5 No 1 (2024): Journal of Internet and Software Engineering

Analisis Tingkat Akurasi Metode Pendeteksian Plagiarisme Ide dengan menggunakan Yake dan Sentence Transformer

Rahma, Salsabila Laily (Unknown)
Taufiq, Umar (Unknown)



Article Info

Publish Date
31 May 2024

Abstract

Penggunaan Artificial Intelligence dengan teknik unsupervised learning dapat berguna dalam pendeteksian plagiarisme ide karena dapat mengidentifikasi kemiripan dan perbedaan antara dokumen teks tanpa memerlukan data berlabel atau pelatihan khusus. Plagiarisme ide melibatkan penyisipan ringkasan dari satu dokumen teks ke dalam dokumen teks lainnya, sehingga membuatnya sulit terdeteksi menggunakan metode pendeteksian plagiarisme standar. Metode yang dikembangkan dalam penelitian ini bertujuan untuk mengatasi permasalahan masalah dalam deteksi plagiarisme ide. Penelitian ini mengembangkan metode untuk deteksi plagiarisme ide dan menguji tingkat akurasi level dokumen dari metode yang dikembangkan. Metode yang dikembangkan ini menggunakan pendekatan baru dengan memanfaatkan library Python yang mengimplementasikan AI pada teknik unsupervised learning yaitu metode Yake sebagai algoritma pengekstrak kata kunci dan Sentence Transformer sebagai algoritma untuk menghitung kemiripan teks pada dataset PAN. Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection (PAN) adalah kumpulan data yang bersifat public dan secara khusus dikembangkan untuk penelitian dalam bidang pendeteksian plagiarisme. Dataset PAN yang digunakan dalam penelitian ini adalah dataset PAN13-14 summary obfuscation dengan sebuah ground truth yang menjadi acuan dalam pengukuran akurasi dari metode yang dikembangkan. Hasil penelitian menunjukkan bahwa metode Sentence Transformer dengan Yake pada threshold 0.1 memiliki akurasi tertinggi untuk kategori Plagiarized dengan nilai F-score pada dataset testing dan dataset training secara berturut-turut adalah 0.3175 dan 0.3217, sementara metode Sentence Transformer dengan threshold 0.6 memiliki akurasi tertinggi untuk kategori Non Plagiarized dengan nilai F-score pada dataset testing dan dataset training secara berturut-turut adalah 0.8905 dan 0.8907.

Copyrights © 2024






Journal Info

Abbrev

JISE

Publisher

Subject

Computer Science & IT

Description

1. About the Journal The Journal of Internet and Software Engineering (JISE) is open-access, peer-reviewed and published by the Department of Electrical Engineering and Informatics, Vocational College, Universitas Gadjah Mada. 2. Aim JISE provides a platform for researchers and scientists to publish ...