Creative Information Technology Journal
Vol 5, No 4 (2018): Agustus - Oktober

Stemming Kata Berimbuhan Tidak Baku Bahasa Indonesia Menggunakan Algoritma Jaro-Winkler Distance

Mudawil Qulub (Magister Informatika, Universitas AMIKOM Yogyakarta)
Ema Utami (Magister Informatika, Universitas AMIKOM Yogyakarta)
Andi Sunyoto (Unknown)



Article Info

Publish Date
19 Mar 2020

Abstract

Bahasa merupakan media untuk mengekspresikan keinginan, gagasan, dan perasaan. Dalam kaitannya dengan bahasa indonesia, bahasa dapat mencerminkan prilaku dalam sebuah masyarakat. Bahasa indonesia dapat digunakan secara formal maupun non-formal. Bahasa non-formal berbentuk kata tidak baku yang biasanya digunakan dalam komentar atau posting dalam media sosial. Salah satu contoh kata tidak baku adalah “nemenin” yang kata formalnya “menemani” dan kata dasarnya adalah “teman”. Dalam penelitian ini akan dilakukan pengujian akurasi algoritma Jaro-Winkler distance dalam mengubah kata imbuhan tidak baku menjadi bentuk dasarnya, proses ini disebut dengan stemming. Penelitian ini menggunakan data sebanyak 60 kata berimbuhan tidak baku. Hasil pengujian menunjukkan tingkat akurasi algoritma Jaro-Winkler sebesar 85% atau 51 kata berhasil di-stemming (3 overstemming, 6 unstemming, 0 understemming).Kata Kunci—Kata Imbuhan Tidak Baku, Stemming, Jaro-Winkler DistanceLanguage that represents the media to attract interest, regulate, and feel. In reversing it with Indonesian, language can reflect behavior in a society. Indonesian can be used formally or informally. Non-formal language in the form of non-formal words used in comments or posts on social media. One example of a non-formal word is "accompanying" the formal word "accompany" and the basic word is "friend". In this research, the Jaro-Winkler algorithm will be tested the distance in changing non-formal affix words into a form of interaction, this process is called stemming. This research uses data as many as 60 words that are not standardized. The test results show the level of testing of the Jaro-Winkler algorithm is 85% or 51 words successfully stemmed (3 overstemming, 6 unstemming, 0 understemming).Keywords— Non-Formal Affix, Stemming, Jaro-Winkler Distance

Copyrights © 2018






Journal Info

Abbrev

citec

Publisher

Subject

Computer Science & IT Control & Systems Engineering Decision Sciences, Operations Research & Management Electrical & Electronics Engineering

Description

Creative Information Technology Journal (CITEC) merupakan jurnal yang berisi hasil penelitian ilmiah di bidang ilmu komputer, teknik komputer, informatika, sistem informasi, dan teknik industri. Jurnal ini bertujuan untuk menjembatani adanya kesenjangan antara kemajuan teknologi informasi secara ...