Farid Miftahuddin
Universitas Negeri Malang

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

K-Medoids Clustering untuk Pembentukan Database Stopword Bahasa Jawa Aji Prasetya Wibawa; Farid Miftahuddin; Suyono Suyono
Ranah: Jurnal Kajian Bahasa Vol 10, No 2 (2021): Ranah: Jurnal Kajian Bahasa
Publisher : Badan Pengembangan dan Pembinaan Bahasa

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26499/rnh.v10i2.2125

Abstract

Stopword is a word that can be ignored in the natural language process. This word removal process does not affect the text analysis process. The technique used to remove stopword is called Stopword Removal. This technique matches words to a stopword list. If the word is in the list it will be deleted. Javanese language to date still has a limited list of stopword. This study aims to form a list of stopword using cluster techniques namely K-medoids clustering. This technique groups words by occurrence in Javanese text. Each cluster result is tested by matching it with a stopword of javanese expert identification. The results of this study suggest that the stopword produced by k-medoids clustering with a value of K=13 has an accuracy of 70.5%. AbstrakStopword merupakan kata yang bisa diabaikan dalam permrosesan bahasa alami. Proses penghapusan kata ini ini tidak mempengaruhi proses analisis teks. Teknik yang digunakan untuk menghapus stopword disebut Stopword Removal. Teknik ini mencocokkan kata dengan daftar stopword (stoplist). Apabila kata tersebut terdapat pada daftar maka akan dihapus. Bahasa jawa sampai saat ini masih memiliki daftar stopword yang terbatas. Penelitian ini bertujuan membentuk daftar stopword menggunakan teknik cluster yakni K-medoids clustering. Teknik ini mengelompokkan kata berdasarkan kemunculan dalam teks bahasa Jawa. Dalam penerapannya, metode yang digunakan dalam penelitian ini terdiri dari lima tahap. Tahapan penelitian tersebut dimulai dari pengumpulan dataset, preprocessing data, clustering, dan terakhir adalah evaluasi. Setiap hasil cluster diuji dengan mencocokkannya dengan stopword hasil identifikasi ahli bahasa Jawa. Hasil penelitian ini menunujkkan bahwa stopword yang dihasilkan k-medoids clustering dengan nilai K=13 yang memiliki akurasi sebesar 70,5%.