Sains, Aplikasi, Komputasi dan Teknologi Informasi
Vol 2, No 2 (2020): Sains, Aplikasi, Komputasi dan Teknologi Informasi

Klasifikasi Artikel Ilmiah Dengan Berbagai Skenario Preprocessing

Hidayatul Ma'rifah (Universitas Negeri Malang)
Aji Prasetya Wibawa (Unknown)
Muhammad Iqbal Akbar (Unknown)



Article Info

Publish Date
06 Apr 2020

Abstract

Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. Tahap-tahap preprocessing yang akan diterapkan terdiri dari case folding, stemming, stopwords removal, transformasi VSM (Vector Space Model), dan SMOTE. Namun, pengamatan tiap skenario berfokus pada stemming dan dua teknik stopwords removal, yaitu stopwords removal berbasis kamus, dan berbasis document frequency setelah melewati proses transformasi ke dalam bentuk VSM dengan pembobotan TF-IDF (Term Trequency–Inverse Document Frequency). Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan confusion matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai dengan persentase accuracy sebesar 72.91% dan precision mencapai 73,36%.

Copyrights © 2020






Journal Info

Abbrev

jsakti

Publisher

Subject

Aerospace Engineering Computer Science & IT

Description

SAINS, APLIKASI, KOMPUTASI DAN TEKNOLOGI INFORMASI is a peer-reviewed journal which is published by Faculty of Computer Sience and Information Technology, Universitas Mulawarman, East Kalimantan publishes biannually in April and August. This Journal publishes current original research on Computer ...