Ario Harry Prayogo
Student of Telkom University

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Identifikasi Parafrasa pada Dokumen Teks Bahasa Indonesia Menggunakan Bayesian Networks Ario Harry Prayogo
Indonesia Symposium on Computing Indonesia Symposium on Computing (IndoSC) 2016
Publisher : Indonesia Symposium on Computing

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Identifikasi parafrasa merupakan proses yang penting dalam Natural Language Processing. Tujuannya adalah untuk dapat secara otomatis mengenali pasangan frasa yang memiliki perbedaan bentuk namun arti yang sama. Contohnya kalimat “menyebabkan kebakaran hutan”, maka komputer harus dapat mengenali bahwa kalimat tersebut memiliki arti sepadan dengan “penyebab kebakaran hutan”. Jadi, parafrasa adalah mengungkapkan kembali sebuah tuturan menggunakan kata atau bentuk yang berbeda namun artinya sama. Pada penelitian ini kita akan berfokus pada pada klasifikasi pasangan kalimat Bahasa Indonesia apakah keduanya merupakan parafrasa atau bukan. Terdapat tiga tahap yang dilakukan yaitu: preprocessing, melatih classifier dan evaluasiperformansi. Preprocessing terdiri dari tokenization, non-alphanumerical removal dan stemming. Setelah dilakukan preprocess kita lakukan ekstraksi fitur untuk membangun fitur baru dari dataset yang ada. Fitur pertama adalah sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimatmenggunakan metode Normalized Levensthein Distance. Fitur kedua adalah semantik yang didapat dari menghitung kemiripan pasangan kalimat berdasarkan pohon semantik menggunakan metode Wu and Palmer. Setelah ekstraksi fitur kemudian dilakukan pembagian data kedalam training set dan test set. Kemudian kita diskritisasi fitur tersebut menggunakan algoritma K-means dan Bayesian Networks sebagai classifier. Rata-rata nilai F1-Score dari klasifikasi menggunakan Bayesian Networks adalah 71.5%.