Claim Missing Document
Check
Articles

Found 39 Documents
Search

Analysis of Community Sentiment on Twitter towards COVID-19 Vaccine Booster Using Ensemble Bagging Methods Artamira Rizqy Amartya Maden; Jondri Jondri; Widi Astuti
Building of Informatics, Technology and Science (BITS) Vol 4 No 2 (2022): September 2022
Publisher : Forum Kerjasama Pendidikan Tinggi

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.47065/bits.v4i2.1973

Abstract

COVID-19 is an infectious disease caused by a newly discovered type of coronavirus. Based on recommendations from the Technical Advisory Group on Virus Evolution, WHO established a new variant called Omicron. Due to the rapid spread of COVID-19, a booster vaccine was created to deal with the new virus variant. However, the strategy of giving vaccines that never ends is considered controversial by the community, and this is shown by the number of people who express their opinions, both positive and negative opinions on social media, one of which is Twitter. This research was conducted by collecting data with the help of the Twitter API. The classification method uses ensemble bagging with three basic lessons, namely Naive Bayes, K-Nearest Neighbor, and Decision Tree. Meanwhile, the feature extraction used in this research is TF-IDF (Term Frequency-Inverse Document Frequency). The performance of the ensemble bagging method by applying Hyperparameter Tuning is a precision of 0.72, recall of 0.71, F1-Score of 0.72, and accuracy of 0.72.
Klasifikasi Teks Multi Label Pada Hadis Dalam Terjemahanbahasa Indonesia Berdasarkan Anjuran, Larangan Dan Informasi Menggunakan Tf-idf Dan Knn Ilham Kurnia Syuriadi; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakHadis adalah segala sesuatu yang dinisbatkan kepada Nabi Muhammad SAW baik berupa perkataan,berbuatan atau sikap. Hadis merupakan pedoman hidup kedua bagi umat muslim setelah AL Qur’an.Sebagai pedoman hidup, umat muslim sangat diharuskan mempelajari Hadis. Melakukan kategorisasipada Hadis adalah salah satu cara untuk mempermudah dalam mempelajari Hadis. Penelitian inibertujuan untuk melakukan klasifikasi terhadap Hadis. Hadis yang digunakan adalah Hadis shahihImam Bukhari. Klasifikasi yang dilakukan adalah klasifikasi multi label. Kelas yang digunakan adalahkelas anjuran, larangan dan informasi. Ekstraksi fitur yang digunakan adalah N-Gram dengan nilai n = 1(unigram) dan n = 2 (bigram). Sedangkan fitur seleksi yang digunakan adalah TF-IDF. Klasifikasidigunakan menggunakan metode k-NN. Skenario percobaan dilakukan dengan mencoba beberapa nilai kpada k-NN, penambahan threshold pada df (document frequency) untuk perhitungan TF-IDF danmelakukan beberapa perubahan pada tahap preprocessing. Untuk mendapatkan hasil evaluasi yang dapatdipercaya, digunakan cross validation. Sedangkan untuk evaluasi dari sistem yang telah dibangun,dihitung menggunakan nilai F1-score. Berdasarkan beberapa percobaan yang dilakukan didapatkan nilaiF1-score terbaik sebesar 0.853. Hasil tersebut menunjukan metode k-NN lebih baik dibanding metodeANN dan metode baseline pada klasifikasi hadis multi label.Kata kunci : Klasifikasi multi label, Hadis, k-NN, TF-IDF, N-gramAbstractHadith is everything that is attributed to the Prophet Muhammad either in the form of words, works orattitudes. Hadith is the second life guide for Muslims after the Qur'an. As a way of life, Muslims arestrongly required to visit the Hadith. Categorizing the Hadith is one of many way to ease people learnHadith. This study aims to make a classification of the Hadith. The hadith used is the Imam BukhariSahih Hadith. The classification carried out is a multi label classification. The class used is a class ofrecommendations, prohibitions and information. Feature extraction used is N-Gram with a value of n = 1(unigram) and n = 2 (bigram). While the feature selection used is TF-IDF. For classification method usedis the k-NN method. The trial scenario is done by trying several k values on k-NN, the threshold on df(document frequency) for calculating TF-IDF and do some changed at the preprocessing stage. To get areliable evaluation result, cross validation used. Evaluation of the system that has been built, it iscalculated using the F1-score. Based on some of experiments conducted, the best F1-score was 0.853. These results indicate that the k-NN method is better than the ANN method and the baseline method inthe multi label hadith classification.Keywords: Multi label classification, Hadith, kNN, TF-IDF, N-gram
Analisis Perbandingan Reduksi Dimensi Principal Component Analysis (pca) Dan Partial Least Square (pls) Untuk Deteksi Kanker Menggunakan Data Microarray Daniel Tanta Christopher Sirait; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakMenurut data WHO (World Health Organization) pada tahun 2015, 8.8 juta kematian diakibatkan olehkanker dimana angka kematian tersebut meningkat dan berkakibat fatal setiap tahunnya bila diagnosatidak dilakukan lebih dini. Oleh karena itu , tidak heran penelitian dalam bidang kanker menjadi topikutama dalam penelitian di bidang medis dan bioinformatika dan terus berkembang hingga saat ini, termasukteknologi DNA microarray. Banyak cara untuk mendeteksi kanker, salah satunya adalah teknikmicroarray. Microarray adalah teknologi yang mampu menyimpan ribuan ekspresi gen yang diambil daribeberapa jaringan manusia sekaligus. Dikarenakan oleh record data microarray yang banyak, komputasiyang dibutuhkan cukup berat. Untuk mengatasi masalah tersebut, dibutuhkan reduksi dimensi. Pada penelitianini, sistem menggunakan dua fitur ekstrasi: Principal Component Analysis (PCA) dan Partial LeastSquare (PLS) dengan Support Vector Machine (SVM) sebagai classifier. Hal ini berguna untuk mengurangiattribute yang terlalu banyak. Sistem yang dibangun mampu mengklasifikasi kanker dan memperoleh nilairata-rata 82% dengan PCA-SVM dan 55.17% untuk PLS-SVM.Kata kunci : kanker, microarray, principal component analysis, partial least square, support vector machine.AbstractAccording to WHO data in 2015 (World Health Organization), 8.8 million deaths were caused by cancerwhere the mortality rate increased and was fatal every year if the diagnosis was not made earlier. Therefore,it is not surprising that research in the field of cancer has become a major topic in research in the medicaland bioinformatics fields and continues to grow to date, including DNA microarray technology. There aremany ways to detect cancer, one of which is the microarray technique. Microarray is a technology thatcan store thousands of gene expressions taken from several human tissues at once. Due to a large numberof microarray data records, the computing required is quite heavy. To overcome this problem, dimensionreduction is needed. In this study, the system uses two extraction features: Principal Component Analysis(PCA) and Partial Least Square (PLS) with Support Vector Machine (SVM) as a classifier. This is usefulto reduce the large amount of attributes. The accuracy generated from this system averaged 82% withPCA-SVM and 55.17% for PLS-SVM.Keywords: cancer, microarray, principal component analysis, partial least square, support vector machine.
Deteksi Fake Review Menggunakan Support Vector Machine Bety Elysabeth Pasaribu; Anisa Herdiani; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Maraknya berbagai e-commerce menjadikan calon pembeli semakin selektif sehingga bergantung padareview yang ditinggalkan oleh pembeli sebelumnya untuk menentukan keputusan membeli suatuproduk. Banyaknya review, baik itu yang bersifat positif atau negatif, sangat mempengaruhi sisi manayang dapat dipercaya. Jika review yang dibaca tidak nyata atau disebut fake review maka akanmerugikan baik sisi penjual ataupun sisi pembeli. Untuk itu, perlu dilakukan analisis untuk mendeteksifake review pada kumpulan review produk. Penelitian ini dilakukan dengan pendekatan lima kelasfeature yaitu sentiment feature, personal feature, brand-only feature, content feature, dan metadata featuredengan menggunakan metode klasifikasi Support Vector Machine. Pada penelitian ini dibandingkanantara SentiwordNet dan SenticNet untuk mendapatkan ekstraksi sentiment mana yang lebih baik. Padapenelitian ini juga dilakukan pemilihan dan penggabungan feature, serta tuning parameter dan jeniskernel pada SVM apakah akan memengaruhi sistem. Hasil terbaik diperoleh akurasi sebesar 74,46%.Dari hasil penelitian ini diperoleh bahwa SenticNet lebih baik daripada SentiwordNet, kemudian tuningparameter serta pemilihan jenis kernel pada SVM bisa mendapatkan hasil yang optimal, sertapenggunaan sentiment feature sangat mempengaruhi sistem untuk deteksi fake review. Kata kunci: fake reviews, support vector machine, feature, sentiwordnet, senticnet Abstract Lot of various e-commerce makes prospective buyers more selective so that it relies on reviews left byThe rise of various e-commerce makes prospective buyers more selective so that it relies on reviews leftby previous buyers to determine the decision to buy a product. The number of reviews, both positive andnegative, greatly influences which side can be trusted. If the review that is read is not real or is called afake review, it will harm both of the seller and the buyer side. For this reason, an analysis is needed todetect fake reviews on a collection of product reviews. This research was approached with a five-classfeatures named sentiment features, personal features, brand-only features, content feature, andmetadata feature using the Support Vector Machine classification method. This research comparesbetween SentiwordNet and SenticNet to get which sentiment extraction is better. This research alsocarried out to analyze whether the differences in the use of SentiwordNet and SenticNet, the selectionand integration of features, and changes in parameters also choosing kernel in SVM will affect thesystem. The best results obtained an accuracy of 74,46%. From the results of this study, it was foundthat SenticNet is better than SentiwordNet, then tuning SVM parameters can get optimal results, alsousing sentiment feature affect the system for detecting fake review. Keywords: fake reviews, support vector machine, features, sentiwordnet, senticnet
Klasifikasi Multilabel Pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Mutual Information Dan Support Vector Machine Mohamad Irwan Afandi; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakHadis merupakan sumber hukum kedua bagi umat Islam setelah Al-Quran. Banyak sekali hadis yang telahdiriwayatkan, namun Hadis Bukhari memiliki tingkat kesahihan paling tinggi menurut para ulama. Seiringdengan perkembangan teknologi, hadis sangatlah mudah didapatkan melalui dunia digital. Akan tetapi untukmempelajari hadis tidak semudah yang kita bayangkan. Banyaknya hadis yang ada dan juga belumdikategorikan membuat belajar hadis dengan kategori tertentu sangat sulit dilakukan. Oleh sebab itu penulismelakukan penelitian klasifikasi anjuran, larangan dan informasi pada Hadis Sahih Al-Bukhari terjemahanBahasa Indonesia yang diharapkan dapat mempermudah masyarakat dalam mempelajari hadis. Prosesklasifikasi menggunakan model unigram/bigram dengan Mutual Information (MI) sebagai seleksi fitur danSupport Vector Machine (SVM) sebagai metode klasifikasi. Pada penelitian ini dilakukan beberapa skenariopengujian dengan memodifikasi term model, preprocessing, feature selection dan menggunakan beberapametode klasifikasi untuk membuktikan bahwa SVM merupakan salah satu metode klasifikasi teks yang cocokdigunakan. Pengujian dengan menggunakan model unigram, tidak menggunakan stopword/stemming,menggunakan MI dan menggunakan SVM memberikan nilai hamming loss terbaik yaitu 0.0686. Hasilpenelitian yang diperoleh juga menunjukkan bahwa metode SVM dengan menggunakan MI lebih baikdaripada metode klasifikasi teks yang lain.Kata kunci: Hadis Bukhari, Hamming loss, Klasifikasi, Mutual Information, Preprocessing, Support Vector Machine.AbstractHadith is the second source of law and guidance for Muslims after the Qur’an. There are many hadiths thathave been narrated, but Bukhari’s hadith has the highest level of validity according to the Islamic scholar.Along with the development of technology, hadith is very easy to obtain trough the digital world. However,learning hadith is not as easy as we imagine. The number of hadiths that exist and also not have beencategorized make learning hadith with specific categories very difficult to do. Therefore, the author conducteda research about classification of suggestion, prohibition and information on Bukhari’s hadith that wastranslated to the Indonesian language which is expected to facilitate the public in learning hadith easily. Theclassification process uses unigram/bigram model with Mutual Information (MI) as feature selection andSupport Vector Machine (SVM) as classification method. This research used several scenarios of testing bymodifying the term model, preprocessing, selection feature and some kind of classification method to provethat SVM is one of the text classification method that suitable to use. Testing using a unigram model, withoutstopword removal or stemming, using MI and also SVM gives the best hamming loss value, it is 0.0686. The research also indicates that SVM with MI produces higher accuracy than other text classification methods. Keyword: Bukhari’s Hadith, Classification, Hamming loss, Mutual Information, Preprocessing, SupportVector Machine.
Klasifikasi Data Microarray dengan Metode Artificial Neural Network dan Genetic Algorithm untuk Kasus Deteksi Kanker Ilham Yunirakhman; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Kanker adalah salah satu penyakit yang paling mematikan di dunia. Pada tahun 2012, terdapat 32,6 juta orang yang positif mengidap kanker dan 8,2 juta kematian yang disebabkan oleh kanker. Terdapat banyak cara yang bisa dilakukan untuk mendeteksi kanker sejak dini, salah satu caranya adalah dengan melakukan klasifikasi fitur pada data DNA microarray. Salah satu metode yang digunakan untuk mendeteksi kanker adalah metode Artificial Neural Network (ANN) – Backpropagation dengan bantuan Genetics Algorithm (GA). ANN digunakan sebagai metode klasifikasi untuk memprediksi kanker, sedangkan GA digunakan sebagai metode untuk mereduksi dimensi dari fitur DNA Microarray yang memiliki dimensi yang sangat besar. Pada penelitian ini dilakukan perbandingan antara metode ANN dan metode ANN-GA hybrid. Metode ANN-GA terbukti lebih efektif dari ANN karena dapat menghasilkan nilai akurasi 93.08% dan mereduksi dimensi hingga 51% dengan waktu running time lebih cepat hingga 42.2%. Kata Kunci : Artificial Neural Network (ANN), ANN-GA hybrid, DNA Microarray, Genetics Algorithm (GA)
Identifikasi Cyberbullying Pada Komentar Instagram Menggunakan Metode Lexicon-based Dan Naïve Bayes Classifier (studi Kasus: Pemilihan Presiden Indonesia Tahun 2019) Rizky Dhian Syarif; Anisa Herdiani; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Tahun 2019 Indonesia diwarnai dengan semarak demokrasi. Masyarakat menyambut dengan gembira dan antusiasme yang tinggi pada Pemilihan Umum Presiden yang dilaksanakan April 2019. Pilpres ini ramaidiperbincangkan di dunia nyata maupun dunia maya, khususnya di media sosial Instagram. Semua orangbebas berpendapat atau beropini tentang masing-masing calon Presiden. Tetapi, yang menjadi persoalanadalah ketika berpendapat tidak berlandaskan etika, sehingga membuat pertentangan antaramasingmasing pendukung pasangan calon presiden. Perang komentar yang membully, menjelekkan, ataumenjatuhkan lawan mewarnai situasi tersebut. Untuk itu, perlu dilakukan identifikasi cyberbullying padakomentar Instagram untuk mengklasifikasikan komentar yang mengandung cyberbullying atau noncyberbullying. Metode yang digunakan dalam penelitian ini adalah metode berbasis lexicon dan metodeberbasis learning yaitu naïve bayes classifier. Proses sistem dimulai dari text preprocessing dengan tahapancleaning, casefolding, dan stemming. Kemudian dilakukan proses klasifikasi menggunakan metode Lexiconbased dan naïve bayes classifier, dan hasil keluaran sistem berupa identifikasi apakah komentar termasukcyberbullying atau non cyberbullying. Pada penelitian ini didapatkan hasil performansi dari metode LexiconBasedmenghasilkanakurasisebesar58%,presisi52%,recall75%danF-score61%.Sedangkannaïvebayesclassifierdidapatkanakurasi97%,presisi94%,recall100%,danF1-score97%.  Kata kunci : cyberbullying, instagram, Lexicon-Based , naïve bayes classifier. Abstract In 2019 Indonesia was colored with the vibrant democracy. The community welcomed with great enthusiasmand enthusiasm at the Presidential Election held in April 2019. The presidential election was heavilydiscussed in the real world and cyberspace, specifically on Instagram social media. All people are free toapprove or opinion about each candidate for President. However, what is being debated is a compilationthat is not based on ethics, thus creating a conflict between each of the supporters of the presidentialcandidate pair. The war of comments that bully, vilify, or bring down opponents depicts beforehand. Forthis reason, it is necessary to collect cyberbullying on Instagram comments to classify comments that containcyberbullying or non-cyberbullying. The method used in this research is the lexicon based method and theBayes classifier naïve learning method. The system process starts from preprocessing text with cleaning,casefolding, and stemming. Then the classification process is carried out using the Lexicon-based methodand the naïve Bayes classifier, and the output of the system involves commenting whether it is cyberbullyingor non-cyberbullying. In this study the performance results obtained from the Lexicon-Based methodproduce an accuracy of 58%, 52% precision, 75% recall and F-score 61%. While Naïve Bayes Classifierobtained 97% accuracy, 94% precision, 100% recall, and F1-score 97%. Keywords: cyberbullying, instagram, based on lexicon, naive bayes classifier.
Klasifikasi Spam Tweet Pada Twitter Menggunakan Metode Naïve Bayes (studi Kasus: Pemilihan Presiden 2019) Muhammad Hanafiah; Anisa Herdiani; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakPemilu merupakan wujud dari kebebasan berpendapat dan kebebasan berserikat. Sedangkan arti daripemilu itu sendiri adalah proses pemilihan orang untuk mengisi jabatan-jabatan politik tertentu. Padatahun 2019 Indonesia telah menyelenggarakan pesta demokrasi 5 tahunan yang telah dilaksanakan padatanggal 17 april 2019. Pembahasan tentang pilpres 2019 begitu ramai diperbincangkan termasuk di mediasosial twitter, Twitter telah memperkenalkan fitur Trending Topics sejak tahun 2018. Fitur inimemudahkan pengguna untuk mengetahui berita atau informasi terbaru di seluruh dunia secara realtime. Bagi pengguna yang ingin melakukan promosi produk tentunya hal ini akan sangat bermanfaatbagi mereka, apalagi disertai dengan hashtag yang berkaitan dengan pilpres 2019 yang sedang ramaidiperbincangkan. Dengan cara ini, mereka dapat mempromosikan konten dagangan mereka ke calonpembeli dengan lebih cepat. Hal ini menyebabkan para pengguna biasa membuang banyak waktu dalammemilih dan memilah informasi atau berita yang mereka inginkan karena konten yang tidak perlumuncul secara terus menerus atau dapat juga disebut dengan spam. Dalam menghadapi permasalahantersebut, maka dari itu pada tugas akhir telah dibangun suatu sistem menggunakan metode Naive Bayesuntuk mengklasifikasi sekumpulan tweet kedalam dua kelas yaitu spam dan non spam. Sebelummemasuki proses pengklasifikasian, sistem melakukan preprocessing terhadap dataset yang digunakan,hal tersebut bertujuan untuk meningkatkan performansi dari ke dua metode yang digunakan. Dalampenelitian ini Naïve Bayes dengan preprocessing dan Naïve Bayes tanpa preprocessing masing-masingmenghasilkan nilai akurasi 76,34% dan 74,14%.Kata Kunci: Pemilu, Twitter, Tweet, Spam, Naïve Bayes.AbstractElections are a manifestation from freedom of opinion and freedom of association. Whereas the meaning ofthe election itself is the process of selecting people to fulfill certain political positions. In 2019 Indonesia hasheld a 5 years democratic party which will be held on 17 April 2019. Discussions about the 2019 presidentialelection are so widely discussed including on social media twitter, Twitter has introduced the Trending Topicsfeature since 2018. This feature makes it easy for users to know the news or the latest information around theworld in real time. For users who want to carry out product promotions surely this will be very beneficial forthem, especially accompanied by the 2019 replace the president election hashtag which is widely beingdiscussed. In this way, they can promote their merchandise to potential buyers faster. This causes ordinaryusers to waste a lot of time in choosing and sorting information or news they want due to content that doesnot need to appear continuously or can also be called spam. In dealing with these problems, therefore in thisfinal project will be built a system using the Naive Bayes method to classify a set of tweets into two classesnamely spam and non spam. Before entering the classification process, the system preprocesses the data setused, it aims to improve performance from the two methods used. In this study Naive Bayes withpreprocessing and Naive Bayes without preprocessing each produced an accuracy value of 76,34% and74,14%.Keywords: Election, Twitter, Tweet, Spam, Naïve Bayes
Analisis Sentimen Opini Masyarakat Terhadap Acara Televisi Pada Twitter Dengan Retweet Analysis Dan Naïve Bayes Classifier Tiara Fitri Berlian; Anisa Herdiani; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakTwitter merupakan media komunikasi yang biasanya digunakan untuk mengutarakan pendapat ataukomentar terhadap suatu produk, individu, tokoh ataupun acara televisi dan memberikan informasi.Informasi yang terdapat pada Twitter berupa pertanyaan, komentar atau opini yang bersifat positifmaupun negatif. Dengan menggunakan komentar yang didapat dari Twitter dapat melengkapi penilaianacara televisi yang selama ini dilakukan menggunakan rating, di mana hal tersebut tidak dapat sepenuhnyadijadikan acuan dalam suatu penilaian terhadap suatu acara televisi. Analisis sentimen merupakan cabangpenelitian dari text mining yang melakukan proses klasifikasi pada dokumen. Metode yang digunakan padatugas akhir ini adalah Naïve Bayes Classifier dengan menambahkan retweet. Berdasarkan hasil pengujian,NBC dengan menambahkan retweet dapat diimplementasikan dalam menganalisis sentimen mengenaiacara televisi dengan rata-rata akurasi yang mencapai 65%. Sedangkan rata-rata akurasi pada NBC tanparetweet adalah 61%. Kata kunci: Analisis sentimen, Twitter, Naïve Bayes Classifier, retweetAbstract Twitter is a communication media that is usually used to express opinions or comments on a product,individuals, characters or television shows and provide information. Information contained on Twitter inthe form of questions, comments or opinions that are positive or negative. Using comments obtained fromTwitter can complement the assessment of television programs that have been carried out using ratings,where they cannot be fully referred to in an assessment of a television program. Sentiment analysis is aresearch branch of text mining that performs the classification process on documents. The method used inthis final project is Naïve Bayes Classifier by adding retweets. Based on the results of testing, NBC by addingretweets can be implemented in analyzing sentiments regarding television programs with an averageaccuracy of 65%. While the average accuracy on NBC without retweets is 61%.Keywords: sentiment analysis, Twitter, Naïve Bayes Classifier, retweet
Klasifikasi Multi-label Pada Hadis Bukhari Dalam Terjemahan Bahasa Indonesia Menggunakan Mutual Information Dan Backpropagation Neural Network Hendro Prasetyo; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakHadis adalah segala sesuatu yang disandarkan pada Nabi Muhammad SAW baik perkataan, perbuatan,taqrir (sikap diam setuju) dan yang lainnya. Hadis merupakan sumber hukum tersendiri bagi umat muslimyang tidak dijelaskan dalam Al Qur’an. Ada banyak hadis yang telah diriwayatkan oleh para ahli hadis,salah satunya adalah hadis shahih Bukhari. Penelitian ini membuat sebuah sistem yang dapat melakukanklasifikasi hadis Bukhari Muslim Terjemahan berbahasa Indonesia. Metode klasifikasi BackpropagationNeural Network digunakan karena dapat melakukan klasifikasi data dengan jumlah fitur yang banyak danberagam, didukung dengan Mutual Information sebagai metode seleksi fitur dalam memilih fitur-fitur yangberpengaruh pada setiap label kelas multi-label. Pada penelitian ini dilakukan beberapa skenariopengujian dengan memodifikasi tahapan preprocessing, seleksi fitur, dan parameter BackpropagationNeural Network. Pengujian tersebut menunjukan bahwa nilai hamming loss terbaik adalah sebesar 0,0892dan waktu komputasi 5284,8 s dengan melibatkan tiga poin pengujian yaitu: stemming, Mutual Informationdan nilai learning rate terbaik.Kata kunci : klasifikasi teks, hadis, backpropagation neural network, mutual information, multi-labelAbstractHadith is everything that is based on Prophet Muhammad SAW involve words, deeds, taqrir (silence agree)and others. Hadith is a separate source of law for Muslims which is not explained in the Qur'an. There aremany traditions which have been narrated by the experts of hadith, one of which is the hadith of sahihBukhari. This research makes a system that can classify the Bukhari Muslim Translation of hadith inIndonesian. The classification method of Backpropagation Neural Network is used because it can classifydata with a large number of diverse features, supported by Mutual Information as a feature selectionmethod in selecting features that affect each multi-label class label. In this study several test scenarios werecarried out by modifying the preprocessing stages, feature selection, and Backpropagation Neural Networkparameters. The test shows that the best hamming loss value is 0.0892 and a computation time of 5284.8 sby involving three test points, namely: stemming, Mutual Information and the best learning rate value.Keywords: text classification, hadith, backpropagation neural network, mutual information, multi-label