Garuda - Garba Rujukan Digital

Indonesia Symposium on Computing

Indonesia Symposium on Computing (IndoSC) 2016

Ario Harry Prayogo ( Student of Telkom University)

Publish Date
30 Sep 2016

Identifikasi parafrasa merupakan proses yang penting dalam Natural Language Processing. Tujuannya adalah untuk dapat secara otomatis mengenali pasangan frasa yang memiliki perbedaanÂ bentuk namun arti yang sama. Contohnya kalimat âmenyebabkan kebakaran hutanâ, maka komputerÂ harus dapat mengenali bahwa kalimat tersebut memiliki arti sepadan dengan âpenyebab kebakaranÂ hutanâ. Jadi, parafrasa adalah mengungkapkan kembali sebuah tuturan menggunakan kata atauÂ bentuk yang berbeda namun artinya sama. Pada penelitian ini kita akan berfokus pada padaÂ klasifikasi pasangan kalimat Bahasa Indonesia apakah keduanya merupakan parafrasa atau bukan.Â Terdapat tiga tahap yang dilakukan yaitu: preprocessing, melatih classifier dan evaluasiperformansi.Â Preprocessing terdiri dari tokenization, non-alphanumerical removal dan stemming. SetelahÂ dilakukan preprocess kita lakukan ekstraksi fitur untuk membangun fitur baru dari dataset yang ada.Â Fitur pertama adalah sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimatmenggunakan metode Normalized Levensthein Distance. Fitur kedua adalah semantik yang didapatÂ dari menghitung kemiripan pasangan kalimat berdasarkan pohon semantik menggunakan metode Wu and Palmer. Setelah ekstraksi fitur kemudian dilakukan pembagian data kedalam training set dan test set. Kemudian kita diskritisasi fitur tersebut menggunakan algoritma K-means dan Bayesian Networks sebagai classifier. Rata-rata nilai F1-Score dari klasifikasi menggunakan BayesianÂ Networks adalah 71.5%.

Citation Download

EndNote, Reference Manager, ProCite

Latex, Jabref

Check in Google Scholar

Journal Info

Indonesia Symposium on Computing

Website

Abbrev

Publisher

Universitas Telkom

Subject

Computer Science & IT

Description

...

Article Info

Abstract

Identifikasi Parafrasa pada Dokumen Teks Bahasa Indonesia Menggunakan Bayesian Networks

Article Info

Abstract