AbstrakKesamaan semantik adalah metrik kesamaan antar kata, kalimat atau dokumen yang berbagi dalamelemen makna. Perhitungan terkaitan semantik memiliki peranan penting dalam data mining, pengambilaninformasi, dan bahkan natural language processing. Pada bahasa Indonesia, perhitungan kesamaansemantik mendapat peran penting karena banyak dimanfaatkan untuk aplikasi lain, seperti klasifikasi teks.Pengukuran kesamaan semantik dapat dilakukan dengan pendekatan berbasis korpus dan pendekatanberbasis kamus. Pada Tugas Akhir ini dilakukan pembangunan model kesamaan semantik berbasis korpusyang direpresentasikan dengan distributional semantic vector. Model kemudian diujikan pada beberapapasang kata dengan derajat kesamaan semantik bervariasi. Model kesamaan semantik dibangun berdasarkorpus Wikipedia Bahasa Indonesia, dengan metode word2vec. Hasil pengujian pada dataset uji yang jugadigunakan pada penelitian sebelumnya berdasar pada referensi SimLex999 dan Rubenstein-goodenoughmenunjukkan nilai korelasi yang diperoleh 0.2753. Walaupun nilai korelasi tersebut lebih kecil dibandingnilai pada penelitian sebelumnya dengan pendekatan korpus, terdapat beberapa kasus di mana modelsemantik berbasis korpus mampu menangkap korelasi semantik lebih baik.Kata kunci : kesamaan semantik, bahasa Indonesia, persamaan kosinus.AbstractSemantic similarity is similarity metric between words, sentences or documents that shares element ofmeaning. Semantic similarity measurement has important role in data mining, information retrieval andeven natural language processing. In Indonesian language, semantic similarity measurement has importantrole because it is widely used for other application, such as text classification. Semantic similarity can bedone by corpus based approach and dictionary based approach. In this thesis, the development of corpusbased semantic similarity model is represented by distributional semantic vector. The model is then testedon several pairs of words with varying degrees of semantic similarity. The semantic similarity model wasbuild based on Indonesian Wikipedia corpus, with word2vec method. The test result on test dataset whichused in previous studies based on SimLex999 dan Rubenstein-goodenough references show the correlationvalue obtained is 0.2753. Although the correlation value is smaller than value in previous study with thecorpus approach, there are numbers of cases where the corpus based semantic model is able to capture thesemantic correlation better.Keywords: semantic similarity, Indonesian language, cosinus similarity