Septiyan Andika Isanta
Universitas Muhammadiyah Malang

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Optimasi Suffix Tree Clustering dengan Wordnet dan Named Entity Recognition untuk Pengelompokan Dokumen Satrio Hadi Wijoyo; Admaja Dwi Herlambang; Fahrur Rozi; Septiyan Andika Isanta
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 4 No 4: Desember 2017
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (644.179 KB) | DOI: 10.25126/jtiik.201744400

Abstract

AbstrakSemakin meningkatnya jumlah dokumen teks di dunia digital mempengaruhi banyaknya jumlah informasiĀ  dan menyebabkan kesulitan dalam proses temu kembali informasi (information retreival). Clustering dokumen merupakan suatu bidang text mining yang penting dan dapat digunakan untuk mengefisienkan dalam pengelolaan teks serta peringkasan teks. Namun beberapa permasalahan muncul dalam clustering dokumen teks terutama dalam dokumen berita seperti ambiguitas dalam content, overlapping cluster, dan struktur unik yang terdapat dalam dokumen berita. Penelitian ini mengusulkan metode baru yaitu optimasi Suffix Tree Clustering (STC) dengan WordNet dan Named Entity Recognition (NER) untuk pengelompokan dokumen. Metode ini memiliki beberapa tahap, yaitu prepocessing dokumen dengan mengekstraksi named entity serta melakukan deteksi sinonim berdasarkan WordNet. Tahap kedua adalah pembobotan term dengan tfidf dan nerfidf. Tahap ketiga adalah melakukan clustering dokumen dengan menggunakan Suffix Tree Clustering. Berdasarkan pengujian didapatkan rata-rata nilai precision sebesar 79.83%, recall 77.25%, dan f-measure78.30 %.Kata kunci: Clustering dokumen, Named Entity Recognition, Suffix Tree Clustering, WordNetAbstractThe increasingnumber oftext documentsin the internet, influence on the number of information and lead to difficulties in the process of information retrieval. Documents clustering is main field of text mining and can be used to stream line the management of text and summarization of text. However, some problems a risein documents clustering, especially in news documents such as ambiguity in the content, overlapping clusters, and theuniquestructure ofthe news thatcontained inthe document. Inthisresearch, we proposea newmethodfor documents clustering, optimization Suffix Tree Clustering (STC) with WordNet and Named Entity Recognition (NER). In this method there are several step, step one is prepocessing documents with named entity extraction and synonym detection based on WordNet. Step two is term weighting with tfidf and nerfidf. For the last step is document clustering using Suffix Tree Clustering. Based on testingwe obtained 79.83% for precision, 77.25% for recall, and78.30% for F-measureKeywords: Documents Clustering, Named Entity Recognition, Suffix Tree Clustering, WordNet