Masalah utama dalam lingkungan akademik adalah plagiarisme, yang dapat merusak reputasi institusi dan menghambat proses pembelajaran mahasiswa. Oleh karena itu, untuk mengatasi masalah ini diperlukan sistem deteksi plagiarisme yang efektif dan efisien. Tujuan dari penelitian ini adalah mengimplementasikan algoritma Shingling dan MD5 Fingerprint menggunakan Python untuk mendeteksi kemiripan teks dalam tugas mahasiswa. Data yang digunakan dalam penelitian ini berupa dokumen Word (.docx) berupa tugas akademik, seperti esai dan laporan, yang dikumpulkan dari mata kuliah Data Warehouse. Metode yang digunakan meliputi pra-pemrosesan teks, pembentukan shingle berbasis kata, dan perhitungan Jaccard Similarity untuk mengukur tingkat kemiripan antara dokumen. Hasil penelitian menunjukkan bahwa algoritma Shingling dan MD5 Fingerprint efektif dalam mendeteksi kemiripan teks, bahkan ketika terdapat variasi dalam struktur kalimat atau penggunaan bahasa. Hasil kemiripan divisualisasikan dalam grafik batang, yang menyajikan tingkat kemiripan antar dokumen secara jelas dan ringkas. Sistem ini diharapkan menjadi alat bantu andal bagi dosen dan institusi dalam memantau keaslian karya tulis mahasiswa secara real-time. Abstract The main issue in the academic environment is plagiarism, which can damage the reputation of institutions and hinder the student learning process. Therefore, an effective and efficient plagiarism detection system is necessary to address this problem. The aim of this study is to implement the Shingling algorithm and MD5 Fingerprint using Python to detect text similarity in student assignments. The data used in this research consists of Word documents (.docx) of academic assignments, such as essays and reports, collected from the Data Warehouse course. The methods used include text preprocessing, word-based shingle formation, and Jaccard Similarity calculation to measure the similarity level between documents. The research results show that the Shingling algorithm and MD5 Fingerprint are effective in detecting text similarity, even when there are variations in sentence structure or language use. Visualization of the results in the form of graphs facilitates the identification of documents with high levels of plagiarism, allowing for further action to maintain academic integrity. This system is expected to be a reliable tool for lecturers and institutions to monitor the authenticity of student writings in real-time.
Copyrights © 2026