Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi (JIKOMTI)
Vol. 1 No. 1 (2024): JIKOMTI: Desember 2024

Pengklasifikasian Dokumen Teks Bahasa Indonesia berbasis Vektor Space Model dengan menggunakan Metode k-Nearest Neighbor (k-NN) dan Euclidean Distance

Setiawan, Dita (Unknown)
Muhammad, Ali (Unknown)
Firizkiansah, Angge (Unknown)



Article Info

Publish Date
01 Dec 2024

Abstract

Proses klasifikasi dokumen yang manual dalam memahami isi materi dan menentukan kategori membutuhkan waktu yang lama. Terlebih jika dokumen dalam jumlah yang banyak dan jumlah kategori yang cukup beragam serta topik yang diulas memiliki kemiripan makna satu sama lain. Hal ini sangat menyulitkan penggunanya karena dibutuhkan ketelitian dan waktu yang tidak sebentar dalam pengklasifikasian. Untuk menangani hal tersebut diperlukan sebuah model sistem yang dapat mengklasifikasikan dokumen teks sesuai dengan kategorinya. Diawali dengan tahap preprocessing dimana sebuah dokumen dilakukan penyeragaman dan kemudahaan pembacaan yang selanjutnya dilakukan pembobotan teks dan penentuan algoritma yang digunakan dalam proses pengklasifikasian. Metode yang digunakan dalam penelitian ini adalah algoritma k-Nearest Neighbor (k-NN). Metode k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan suatu objek dengan beberapa objek lainnya. Penggunaan metode k-NN akan lebih mudah jika telah menggunakan sebuah fungsi, kebanyakan fungsi yang digunakan adalah fungsi kesamaan cosinus karena k-NN bekerja dengan prinsip dasar mencari tingkat kemiripan antar objek. Namun untuk dapat mengetahui tingkat kemiripan suatu objek dibutuhkan parameter jarak terdekat antara dua data dengan menggunakan Euclidean. Pada penelitian ini menggunakan fungsi koefisien jarak yang menunjukan hubungan terbalik dengan derajat kesamaan dan sering disebut sebagai ukuran ketidaksamaan (distance) akan mempermudah dalam mengukur kesetaraan antar dua data. Sehingga model yang diusulkan pada penelitian ini adalah mengklasifikasikan dokumen teks bahasa Indonesia berbasis Vector Space Model dengan menggunakan metode k-Nearest Neighbor dan Euclidean Distance. Hasil dari penelitian ini menunjukan bahwa klasifikasi menggunakan k-NN dengan menghitung jarak antar vector menggunakan Euclidean Distance menghasilkan ketepatan klasifikasi yang paling baik, dengan nilai Accuracy sebesar 93.2%, Precision sebesar 96.2%, Recall sebesar 95.2% dan F1-Score sebesar 92.6% dari pembandingan 30 dokumen (k=5) dengan masing-masing dokumen uji.

Copyrights © 2024






Journal Info

Abbrev

Jikomti

Publisher

Subject

Computer Science & IT

Description

Jurnal Ilmiah Ilmu Komputer dan Teknologi Informasi (JIKOMTI) diterbitkan oleh Universitas Sains Indonesia. JIKOMTI merupakan jurnal ilmiah yang berfokus pada bidang ilmu komputer dan teknologi informasi dengan tujuan untuk menyebarluaskan hasil penelitian sebagai kontribusi secara teoritis maupun ...