eProceedings of Engineering
Vol 6, No 2 (2019): Agustus 2019

Kategorisasi Berita Multi-label Berbahasa Indonesia Menggunakan Algoritma Random Forest

Brama Hendra Mahendra (Telkom University)
Adiwijaya Adiwijaya (Telkom University)
Untari Novia Wisesty (Telkom University)



Article Info

Publish Date
01 Aug 2019

Abstract

AbstrakBerita merupakan informasi mengenai sesuatu yang sedang terjadi atau sudah terjadi. Seiring denganberkembangnya teknologi dimana berita disajikan dalam bentuk website karena hal itu menyebabkanjumlah berita digital yang dirilis oleh beberapa portal berita setiap harinya menjadi sangat banyak. Daribanyaknya ketersediaan dokumen berita yang ada, berdampak pada banyaknya dokumen berita yangmemiliki makna yang sama. Berdasarkan dari uraian diatas dibutuhkan metode-metode pengkategorianberita yang baik untuk memudahkan dalam pengambilan informasi. Dalam hal ini, banyak metode yangdapat dilakukan dalam mengkategorikan berita salah satunya dengan metode Random Forest. Tapisebelum menggunakan metode tersebut, terdapat beberapa langkah yang harus dilakukan dalammenentukan nilai dari random forest. Salah satu langkah yang harus dilakukan adalah menentukan featureextraction dengan metode Regular Expression dan dilanjutkan dengan pembobotan TF-IDF lalu setelah itumelakukan Cross-Validation dengan k-Fold. Dataset yang digunakan terdiri dari dua jenis yaitu data testingdan data training. Untuk hasil uji coba diperoleh nilai sebesar 0,126 dari proses persamaan Hamming Loss.Kata kunci: Random Forest, Dokumen Berita, Feature Extraction, Pembobotan TF-IDF, Cross-Validation,Hamming LossAbstractNews is an information about something that is happening or has happened. Along with the development oftechnology where news is presented in the form of websites, it causes a large number of digital news releasedby several news portals issued. From the abundance of news document that exist, it has an impact on thenumber of news document that have the same meaning. Based on the description above, it needs a goodnews categorization methods to facilitate information retrieval. In this case, there are many methods can bedone in categorizing the news one of them by the Random Forest method. But before using this method,there are several steps must be taken to determine the value of random forest. One step that must be doneis to determine feature extraction using the Regular Expression method and complete it by weighting of TFIDF,andthendoingCross-Validation.Thedatausedconsistsoftwotypes,testingdataandtrainingdata.Fortheresultsofthetrialobtainedavalueof0.126fromtheHammingLossequationprocess. Keywords:RandomForest,News Document, Feature Extraction, Weighting of TF-IDF, Cross-Validation,Hamming Loss

Copyrights © 2019






Journal Info

Abbrev

engineering

Publisher

Subject

Computer Science & IT Control & Systems Engineering Electrical & Electronics Engineering Engineering Industrial & Manufacturing Engineering

Description

Merupakan media publikasi karya ilmiah lulusan Universitas Telkom yang berisi tentang kajian teknik. Karya Tulis ilmiah yang diunggah akan melalui prosedur pemeriksaan (reviewer) dan approval pembimbing ...