Jurnal Pseudocode
Vol 5, No 2 (2018): Volume 5 Nomor 2 September 2018

Document Clustering Dengan Latent Dirichlet Allocation dan Ward Hierarichal Clustering

Guntur Budi Herwanto (Department of Computer Science, Faculty of Mathematics and Natural Science, Universitas Gadjah mada)



Article Info

Publish Date
23 Nov 2018

Abstract

Saat ini konten informasi dalam bentuk berita dihasilkan dengan jumlah besar dari berbagai sumber setiap harinya. Banyaknya konten yang dihasilkan ini menuntut organisasi konten yang baik agar pencarian informasi yang diinginkan dapat dilakukan dengan mudah. Organisasi dan manajemen informasi yang efisien terhadap konten informasi elektronik ini menginspirasi penelitian mengenai document clustering. Pada penelitian ini dirancang sebuah metode document clustering dengan melakukan kombinasi pemodelan topik latent dirichlet allocation (LDA) dengan ward hierarchical clustering. LDA digunakan sebagai representasi vektor dokumen yang berupa distribusi topik. Representasi ini bertujuan untuk mengurangi dimensi vektor yang pada umumnya terlalu panjang jika menggunakan tf-idf. Ward Hierarchical Clustering yang memiliki kompleksitas tinggi dapat terbantu prosesnya dengan representasi dari LDA. Selain itu dihasilkan silhouette coefficient yang baik yaitu 0.7. Dalam peneltian ini juga ditemukan bahwa penentuan jumlah topik dalam kaitannya dengan document clustering dapat dilakukan dengan mempertimbangkan silhouette coefficient pada hasil clustering. Performa silhouette coefficient pada representasi pemodelan topik lebih baik dibandingkan dengan representasi dengan tf-idf.

Copyrights © 2018






Journal Info

Abbrev

pseudocode

Publisher

Subject

Computer Science & IT Control & Systems Engineering Decision Sciences, Operations Research & Management Electrical & Electronics Engineering

Description

Pseudocodeis a scientific journal in the information science family that contains the results of informatics research, scientific literature on informatics, and reviews of the development of theories, methods, and application of informatics engineering science. Pseudocode is published by the ...