Indonesian Journal of Business Intelligence (IJUBI)
Vol 7, No 2 (2024): Indonesian Journal of Business Intelligence (IJUBI)

Deteksi Kemiripan Dokumen Menggunakan Cosine Similarity Berdasarkan Representasi Teks Count Vectorizer Dan TF IDF

Pradana, Musthofa Galih (Universitas Pembangunan Nasional Veteran Jakarta)
Irzavika, Nindy (Universitas Pembangunan Nasional Veteran Jakarta)
Maulana, Nurhuda (Universitas Pembangunan Nasional Veteran Jakarta)



Article Info

Publish Date
31 Dec 2024

Abstract

Tujuan mata kuliah skripsi atau tugas akhir menumbuhkan budaya berpikir kritis, dan menunjukan kemampuan untuk memecahkan permasalahan dengan konstruksi logis dari penelitian. Akan tetapi, dari banyaknya manfaat tersebut, ada beberapa permasalahan yang juga muncul dikarenakan mata kuliah ini. Plagiarisme adalah masalah umum. Mengambil karya orang lain, termasuk pendapat mereka sendiri, dan membuatnya seperti karya sendiri adalah plagiarisme. Langkah pertama dalam penggunaan teknologi adalah mendeteksi kesamaan dokumen sejak dini. Dalam hal ini, dokumen yang harus dikumpulkan oleh mahasiswa selama proses pengajuan judul skripsi mereka adalah abstrak. Ketika digunakan, algoritma cosine similarity adalah algoritma yang efisien secara komputasi karena sangat mudah dipahami dan dapat digunakan dengan data berskala besar. Penelitian ini dilakukan dengan dua pendekatan representasi teks yaitu dengan menggunakan TF-IDF dan Count Vectorizer. Data korpus yang digunakan dalam penelitian ini adalah 1600 data dokumen abstrak skripsi mahasiswa, dengan pengujian menggunakan 30 data untuk melihat kinerja algoritma cosine similarity dalam mendeteksi kesamaan dokumen abstrak. Hasil penelitian menunjukkan bahwa pendekatan representasi teks TF-IDF mendapatkan kesamaan di angka 7,72861 dan Count Vectorizer mendapatkan hasil di angka 16,85541 atau punya gap sebesar 9,1268 dengan keunggulan Count Vectorizer. Hal ini disebabkan Count Vectorizer menghitung frekuensi kata tanpa mempertimbangkan apakah kata tersebut umum atau jarang, sehingga kata-kata umum tetap berkontribusi penuh terhadap similarity.

Copyrights © 2024






Journal Info

Abbrev

IJUBI

Publisher

Subject

Computer Science & IT Decision Sciences, Operations Research & Management

Description

Fokus jurnal adalah karya inovatif pada analisis, desain, pengembangan, implementasi, evaluasi program, proyek, dan produk sistem informasi dalam manajemen strategis dan intelijen bisnis. ...