cover
Contact Name
-
Contact Email
-
Phone
-
Journal Mail Official
-
Editorial Address
-
Location
Unknown,
Unknown
INDONESIA
Jurnal Linguistik Komputasional
ISSN : -     EISSN : 26219336     DOI : -
Core Subject : Science,
Jurnal Linguistik Komputasional (JLK) menerbitkan makalah orisinil di bidang lingustik komputasional yang mencakup, namun tidak terbatas pada : Phonology, Morphology, Chunking/Shallow Parsing, Parsing/Grammatical Formalisms, Semantic Processing, Lexical Semantics, Ontology, Linguistic Resources, Statistical and Knowledge based methods, POS tagging, Discourse, Paraphrasing/Entailment/Generation, Machine Translation, Information Retrieval, Text Mining, Information Extraction, Summarization, Question Answering, Dialog Systems, Spoken Language Processing, Speech Recognition and Synthesis.
Arjuna Subject : -
Articles 67 Documents
Analisis Morfologi untuk Menangani Out-of-Vocabulary Words pada Part-of-Speech Tagger Bahasa Indonesia Menggunakan Hidden Markov Model Febyana Ramadhanti; Yudi Wibisono; Rosa Ariani Sukamto
Jurnal Linguistik Komputasional Vol 2 No 1 (2019): Vol. 2, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1222.973 KB) | DOI: 10.26418/jlk.v2i1.13

Abstract

Part-of-speech (PoS) tagger is one of tasks in the field of natural language processing (NLP) as the process of part-of-speech tagging for each word in the inputed sentence. Hidden markov model (HMM) is a probabilistic based PoS tagger algorithm, so it really depends on the train corpus. The limited components in the train corpus and the breadth of words in the Indonesian language pose a problem called out-of-vocabulary (OOV) words. This research compared PoS tagger HMM using Morphological Analysis (AM) method and HMM PoS tagger without AM, using the same train and testing corpus. Testing corpus contains 30% OOV level out of 6,676 tokens or 740 sentences. The result obtained from the HMM system has 97.54% of accuracy, while the HMM system with morphological analysis method has 99.14% as it’s highest accuracy.
Pembobotan Kata berdasarkan Kluster untuk Peringkasan Otomatis Multi Dokumen Fatra Nonggala Putra; Ari Effendi; Agus Zainal Arifin
Jurnal Linguistik Komputasional Vol 1 No 1 (2018): Vol. 1, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (892.663 KB) | DOI: 10.26418/jlk.v1i1.5

Abstract

Building Monolingual Word Alignment For Indonesian Al-Quran Translation Galih Rizky Prabowo; Moch Arif Bijaksana
Jurnal Linguistik Komputasional Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (986.575 KB) | DOI: 10.26418/jlk.v1i2.11

Abstract

Sistem Identifikasi Bahasa Jawa dan Bahasa Indonesia Dokumen Teks Berbasis N-Gram Karakter Lucia Dwi Krisnawati; Fidelia Vera Sentosa; Aditya Wikan Mahastama
Jurnal Linguistik Komputasional Vol 2 No 1 (2019): Vol. 2, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (974.848 KB) | DOI: 10.26418/jlk.v2i1.16

Abstract

Identifikasi bahasa adalah sebuah proses yang mencoba menemukan bahasa yang digunakan dalam sebuah wacana secara otomatis. Sistem Identifikasi Bahasa (SIB) pada dasarnya dibedakan menjadi SIB lisan yang mengidentifikasi bahasa tutur lewat fitur akustik atau fonem, dan SIB berbasis fitur grafem dalam berbagai level dan kategori linguistiknya. Penelitian ini mencoba untuk membangun SIB yang dirancang untuk membedakan teks berbahasa Jawa dari bahasa Indonesia dan bahasa lainnya. Profil bahasa yang digunakan dibangun dari korpus yang diambil dari korpus Trawaca dan beberapa sumber daring dari berbagai topic. Tujuannya adalah untuk memperkaya kosa kata dan menignkatkan jumlah tipe kata. Profil bahasa tiap kategori diebntuk dari n-gram berbasis karakter dan diambil 100 n-gram dengan nilai CF tertinggi. Perhitungan jarak antara profil bahasa dengan dokumen uji dilakukan dengan menggunakan ukuran Out-Of-Place (OOP). Hasil pengujian menunjukkan bahwa Presisi idenfikasi dokumen berbahasa Jawa mencapai 0.96, sedangkan Presisi dokumen berbahasa Indonesia mencapai 0.86. Nilai Akurasi total identifikasi mencapai 0.85. Nilai Presisi identifikasi bahasa Indonesia jauh lebih rendah disbanding nilai Presisi identifikasi bahasa Jawa disebabkan diujikannya dokumen berbahasa Melayu-Malaysia yang tentu saja teridentifikasi sebagai dokumen berbahasa Indonesia.
Peringkasan Multidokumen Otomatis dengan Menggunakan Log-Likelihood Ratio (LLR) dan Maximal Marginal Relevance (MMR) untuk Artikel dengan Topik Penyakit Menular Bahasa Indonesia Ikhwan Nizwar Akhmad; Anto Satriyo Nugroho; Bambang Harjito
Jurnal Linguistik Komputasional Vol 1 No 1 (2018): Vol. 1, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1098.054 KB) | DOI: 10.26418/jlk.v1i1.6

Abstract

Increasing number of information available on the Internet, along with its benefit, also comes with various problems. Modern search engines are smart enough to bring the most relevant information, but the immense number of information provided often brings more confusion than clarity. This condition is known as information overload. Automatic multidocument summarization is a way to overcome this particular problem. Nevertheless, despite of being heavily studied more than 20 years, its implementations for Indonesian language are limited. In this paper, we reported our experimental results on multidocument summarization in Indonesian language. Articles about infectious disease is one of the ideal case study for multidocument summarization for Indonesian language. Information about infectious disease are essential for general public therefore many information about it is available on the Internet. This condition could trigger information overload when someone do an internet search in this topic. In this research, we try to implement multidocument summarization technique for articles with infectious disease topic in Bahasa Indonesia utilizing Log Likelihood Ratio (LLR) to obtain topic signatures and Maximal Marginal Relevance (MMR) to generate relevant summary with minimal information redundancy. Our summarization method generated a summary with 0.4 F-measure using ROUGE-S9 evalution. Also, we found that topic signature (with its accuracy) takes an important role on generating good summaries.
Pengukuran Pitch dan Intensity Diftong Tertinggi Menggunakan Program PRAAT Heri Heryono
Jurnal Linguistik Komputasional Vol 2 No 2 (2019): Vol. 2, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1293.564 KB) | DOI: 10.26418/jlk.v2i2.22

Abstract

Penelitian ini menitikberatkan pada studi kasus sederhana yang melibatkan dua orang pengujar, native dan non-native dalam mengucapkan kata-kata yang mengandung diftong. Bidang linguistik yang terkait adalah fonetik dan fonologi, dengan bantuan sebuah aplikasi PRAAT untuk menghitung frekuensi dan intensitas ujaran. Subjek pembahasan dalam penelitian ini adalah vokal rangkap/diftong (diphthong) yang terdapat dalam beberapa kata berbahasa Inggris. Yang difokuskan hanyalah unsur pitch dan intensity dari dua orang pengujar dalam mengujarkan kata-kata bervokal rangkap tersebut. Metode penelitian yang digunakan dalam mendapatkan perbandingan pitch dan intensity dari dua pengujar ini adalah deskriptif-analisis dengan penyuguhan data berupa tabel angka serta grafik. Penelitian ini melibatkan satu pengujar native dan satu pengujar non-native untuk mendapatkan hasil yang bisa diperbandingkan. Metode pengambilan data menggunakan PRAAT dengan file audio sebagai sumber data utama. Hasil dari penelitian ini menunjukkan bahwa pengujaran diftong dengan nilai pitch tertinggi baik dari pengujar native maupun non-native terlihat pada saat pengujaran kata dengan diftong /ɔɪ/; frekuensinya adalah 216.8 Hz untuk native dan 301.1 Hz untuk pengujar non-native. Sedangkan untuk intensity, diftong /ɪə/ memiliki angka intensitas terbesar yaitu 78.36 untuk pengujar native dan 80.52 untuk pengujar non-native. Berdasarkan pengambilan sampel data suara dari dua orang pengujar, maka dapat disimpulkan bahwa diftong /ɔɪ/ memiliki frekuensi yang tertinggi dibandingkan lainnya. Dan, diftongp /ɪə/ memiliki angka intensitas tertinggi dibandingkan dengan diftong lainnya. Penelitian menggunakan PRAAT dengan memperbandingkan pengujar native dan non-native secara fonetis memberikan ruang penelitian baru di ranah Bahasa dan teknologi.
Pencarian Potongan Ayat Al-Qur'an dengan Perbedaan Bunyi pada Tanda Berhenti Berdasarkan Kemiripan Fonetis Naufal Rasyad; Moch. Arif Bijaksana; Kemas Muslim Lhaksmana
Jurnal Linguistik Komputasional Vol 2 No 2 (2019): Vol. 2, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1238.009 KB) | DOI: 10.26418/jlk.v2i2.25

Abstract

Al-Quran merupakan kitab suci utama bagi umat Islam yang ditulis menggunakan bahasa Arab. Seiring dengan perkembangan teknologi, telah dikembangkan sistem pencarian ayat Al-Qur’an berdasarkan kemiripan fonetis salah satunya adalah Lafzi. Namun untuk menangani perbedaan bunyi pada tanda berhenti di pertengahan ayat, sistem Lafzi belum bisa menanganinya dengan baik. Maka dari itu, dibutuhkan sistem yang dapat membantu pengguna dalam melakukan pencarian ayat Al-Quran, terutama untuk perbedaan bunyi pada tanda berhenti sehingga pencarian bisa menemukan kata yang berbeda pengucapan pada tanda berhenti. Berdasarkan permasalahan tersebut, dari sistem Lafzi, dilakukan pengembangan supaya dapat melakukan pencarian yang bisa menangani perbedaan bunyi pada tanda berhenti. Digunakan pengindeksan trigram untuk memperkirakan kecocokan string antara kueri dengan transliterasi ayat Al-Qur’an serta dibuat aturan pada input dengan huruf akhir ’T’ menjadi ’H’. Sistem yang sudah ada mendapatkan nilai recall sebesar 81% dan nilai MAP sebesar 65%. Sedangkanhasildaripenelitianinidiperolehnilairecallsebesar 100% dan nilai MAP sebesar 84%.
Sentiment Analysis Terhadap Tweet Bernada Sarkasme Berbahasa Indonesia Lanny Septiani; Yuliant Sibaroni
Jurnal Linguistik Komputasional Vol 2 No 2 (2019): Vol. 2, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (322.741 KB) | DOI: 10.26418/jlk.v2i2.23

Abstract

Sarkasme dapat mengubah polaritas kalimat dari positif atau negatif menjadi sebaliknya. Sementara senti-men analisis pada sosial media sudah banyak dimanfaatkan, tetapi masih jarang sekali ditemukan sentimen analisis yang mempertimbangkan pendeteksian sarkasme didalamnya. Hal ini tentu akan mempengaruhi kualitas dari hasil analisis. Percobaan mengenai sentimen analisis dengan pendeteksian sarkasme lebih sering ditemukan pada penggunaan bahasa Inggris. Oleh karena itu, dengan mengacu pada penelitian yang dilakukan pada tweet berbahasa Inggris, pada penelitian ini kami menganalisa sentimen analisis bernada sarkasme pada Tweet berbahasa Indonesia dengan menggunakan fitur interjeksi dan unigram sebagai fitur utama oendeteksi kalimat sarkasme serta membandingkan 2 metode klasifikasi yaitu Naive Bayes dan Support Vector Machine dengan kernel polinomial. Fitur interjeksi menyatakan fitur yang memuat kata-kata yang mengungkapkan perasaan dan maksud seseorang, sedangkan fitur unigram merupakan kumpulan kata tunggal yang diperoleh dari korpus secara otomatis. Hasil eksperimen menunjukkan penggunaan fitur interjeksi dan unigram sebagai pendeteksian sarkasme pada tweet berbahasa Indonesia mampu meningkatkan akurasi dengan rata-rata kenaikan akurasi lebih dari 8% untuk classifier Naive Bayes dan lebih dari 13% untuk classifier Support Vector Machine dibandingkan hanya menggunakan fitur unigram saja. Hasil lainnya adalah akurasi terbaik adalah metode Naive Bayes dengan akurasi terbaik yang diperoleh mencapai lebih dari 91.
Perkembangan Part-of-Speech Tagger Bahasa Indonesia Mia Kamayani
Jurnal Linguistik Komputasional Vol 2 No 2 (2019): Vol. 2, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (232.313 KB) | DOI: 10.26418/jlk.v2i2.20

Abstract

Tujuan dari artikel ini adalah membuat kajian literatur terhadap metode pelabelan part-of-speech (POS tagger) untuk Bahasa Indonesia yang telah dilakukan selama 11 tahun terakhir (sejak tahun 2008). Artikel ini dapat menjadi roadmap POS tagger Bahasa Indonesia dan juga dasar pertimbangan untuk pengembangan selanjutnya agar menggunakan dataset dan tagset yang standar sebagai benchmark metode. Terdapat 15 publikasi yang dibahas, pembahasan meliputi dataset, tagset dan metode yang digunakan untuk POS tag Bahasa Indonesia. Dataset yang paling banyak digunakan dan paling mungkin menjadi corpus standar adalah IDN Tagged Corpus terdiri dari lebih dari 250.000 token. Tagset Bahasa Indonesia hingga saat ini belum terstandarisasi dengan jumlah label bervariasi dari 16 tag hingga 37 tag. Metode yang paling banyak dikembangkan dan berpotensi menjadi state-of-the-art adalah neural network, dengan varian metode biLSTM dan CRF dan sejauh ini memberikan skor F1 dan akurasi tertinggi (>96%).
Kalibrasi Rasio kemungkinan pada Sistem Rekognisi Pengucap Otomatis untuk Aplikasi Forensik di Indonesia Miranti Indar Mandasari; Angga Dwi Firmanto; Fadjar Fathurrahman
Jurnal Linguistik Komputasional Vol 2 No 2 (2019): Vol. 2, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (614.142 KB) | DOI: 10.26418/jlk.v2i2.24

Abstract

Kalibrasi LR merupakan tahapan yang sangat penting saat akan mengaplikasikan sistem rekognisi pengucap otomatis pada bidang forensik. Artikel ini memuat tahapan dan evaluasi terhadap sistem rekognisi pengucap yang dibangun menggunakan basis data suara ucap berbahasa Indonesia. Sistem dikembangkan menggunakan fitur MFCC, pemodelan GMM-UBM, dan normalisasi Z. Sistem dievaluasi kinerjanya berdasarkan gender laki-laki dan perempuan, serta dua skenario, yakni percakapan natural dan wawancara. Evaluasi sistem dilakukan menggunakan indikator performa dalam hal kemampuan diskriminasi dan kalibrasi sistem. Hasil evaluasi dengan berbagai indikator menunjukkan bahwa sistem rekognisi pengucap otomatis yang dibangun telah menunjukkan hasil yang sangat baik. Hal ini ditunjukkan dengan nilai EER terbaik sebesar 4.66%, dan nilai Cmc sebesar 0.04. Dengan begitu, sistem yang dikembangkan telah siap untuk dipakai sebagai alat analisis rekognisi pengucap otomatis untuk aplikasi forensik di Indonesia.