eProceedings of Engineering
Vol 6, No 2 (2019): Agustus 2019

Analisis Hasil Penerapan Metode Distributional Semantic Untuk Kesamaan Semantik Pada Bahasa Indonesia

Muhammad Taufik Wahdiat (Telkom University)
Ade Romadhony (Telkom University)
Said Al Faraby (Telkom University)



Article Info

Publish Date
01 Aug 2019

Abstract

AbstrakKesamaan semantik adalah metrik kesamaan antar kata, kalimat atau dokumen yang berbagi dalamelemen makna. Perhitungan terkaitan semantik memiliki peranan penting dalam data mining, pengambilaninformasi, dan bahkan natural language processing. Pada bahasa Indonesia, perhitungan kesamaansemantik mendapat peran penting karena banyak dimanfaatkan untuk aplikasi lain, seperti klasifikasi teks.Pengukuran kesamaan semantik dapat dilakukan dengan pendekatan berbasis korpus dan pendekatanberbasis kamus. Pada Tugas Akhir ini dilakukan pembangunan model kesamaan semantik berbasis korpusyang direpresentasikan dengan distributional semantic vector. Model kemudian diujikan pada beberapapasang kata dengan derajat kesamaan semantik bervariasi. Model kesamaan semantik dibangun berdasarkorpus Wikipedia Bahasa Indonesia, dengan metode word2vec. Hasil pengujian pada dataset uji yang jugadigunakan pada penelitian sebelumnya berdasar pada referensi SimLex999 dan Rubenstein-goodenoughmenunjukkan nilai korelasi yang diperoleh 0.2753. Walaupun nilai korelasi tersebut lebih kecil dibandingnilai pada penelitian sebelumnya dengan pendekatan korpus, terdapat beberapa kasus di mana modelsemantik berbasis korpus mampu menangkap korelasi semantik lebih baik.Kata kunci : kesamaan semantik, bahasa Indonesia, persamaan kosinus.AbstractSemantic similarity is similarity metric between words, sentences or documents that shares element ofmeaning. Semantic similarity measurement has important role in data mining, information retrieval andeven natural language processing. In Indonesian language, semantic similarity measurement has importantrole because it is widely used for other application, such as text classification. Semantic similarity can bedone by corpus based approach and dictionary based approach. In this thesis, the development of corpusbased semantic similarity model is represented by distributional semantic vector. The model is then testedon several pairs of words with varying degrees of semantic similarity. The semantic similarity model wasbuild based on Indonesian Wikipedia corpus, with word2vec method. The test result on test dataset whichused in previous studies based on SimLex999 dan Rubenstein-goodenough references show the correlationvalue obtained is 0.2753. Although the correlation value is smaller than value in previous study with thecorpus approach, there are numbers of cases where the corpus based semantic model is able to capture thesemantic correlation better.Keywords: semantic similarity, Indonesian language, cosinus similarity

Copyrights © 2019






Journal Info

Abbrev

engineering

Publisher

Subject

Computer Science & IT Control & Systems Engineering Electrical & Electronics Engineering Engineering Industrial & Manufacturing Engineering

Description

Merupakan media publikasi karya ilmiah lulusan Universitas Telkom yang berisi tentang kajian teknik. Karya Tulis ilmiah yang diunggah akan melalui prosedur pemeriksaan (reviewer) dan approval pembimbing ...