Claim Missing Document
Check
Articles

Handling Imbalanced Data Pada Prediksi Churn Menggunakan Metode Smote Dan Knn Based On Kernel Oscar Ramadhan; Adiwijaya Adiwijaya; Annisa Aditsania
eProceedings of Engineering Vol 4, No 3 (2017): Desember, 2017
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Customer churn merupakan masalah umum yang ditemui diperindustrian telekomunikasi. Customer churn didefinisikan sebagai kecenderungan customer berhenti melakukan bisnis dengan suatu perusahaan. Tetapi hanya terdapat sedikit sekali churn customer yang ada. Kekurangan data yang menunjukan bahwa customer tersebut termasuk churn customer menyebabkan masalah imbalanced data. pada tugas akhir ini penulis membuat sebuah sistem yang dapat melakukan penanganan terkait imbalanced data menggunakan SMOTE (Synthetic Minority Over-sampling Technique). Classifier yang digunakan untuk menentukan suatu customer apakah termasuk churn atau tidak, menggunakan metode Improve KNN Algorithm Based on Kernel Method. Metode ini merupakan perkembangan dari metode KNN Standard. Dimana pada metode KNN Standard proses klasifikasi dilakukan dengan melihat sejumlah k tetangga terdekat, dan akan diklasifikasikan berdasarkan jumlah kelas terbanyak pada sejumlah k tetangga terdekatnya. Classifier tersebut diuji menggunakan 3 fungsi Kernel dan 40 kombinasi parameter untuk menemukan performansi tertinggi. Performansi tertinggi yang didapat dari kombinasi parameter tersebut diukur menggunakan f1-measure dan akurasi secara berurut pada data tanpa smote, smote 1:3, smote 1:2, smote 3:4, dan smote 1:1, yaitu: 0,314 & 97,58%, 0,449 & 94,55%, 0,413 & 93,70%, 0,382 & 92,74% dan 0,363 & 92,08%. Kata Kunci: Churn Prediction, Over-sampling, SMOTE (Synthetic Minority Over-sampling Technique), Improve KNN Algorithm Based on Kernel Method.
Implementasi Algoritma Binary Particle Swarm Optimization (BPSO) dan C4.5 Decision Tree untuk Deteksi Kanker Berdasarkan Klasifikasi Microarray Data Amalya Citra Pradana; Adiwijaya Adiwijaya; Annisa Aditsania
eProceedings of Engineering Vol 5, No 3 (2018): Desember 2018
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Kanker merupakan salah satu penyakit yang mematikan di dunia. Upaya pendeteksian kanker dapat dilakukan dengan merepresentasikan kanker ke dalam microarray data dengan mengukur perubahan yang terjadi pada level ekspresi gen. Deteksi gejala kanker dapat dilakukan dengan teknik data mining, yaitu klasifikasi terhadap microarray data. Salah satu penerapan algoritma untuk klasifikasi adalah C4.5 Decision Tree dimana algoritma tersebut mudah diinterpretasi dan termasuk paling berpengaruh dalam klasifikasi namun memiliki kekurangan yaitu sensitif terhadap data noise. Microarray data memiliki jumlah feature yang sangat besar (high dimensional) dimana tidak semua feature tersebut memiliki informasi yang penting (high noise) dan jumlah sampel yang sedikit sehingga penerapan proses klasifikasi saja menjadi sulit karena dapat mempengaruhi nilai akurasi. Binary Particle Swarm Optimization (BPSO) merupakan salah satu algoritma optimasi pencarian untuk mendapatkan fitur yang optimal. Pemodelan rule pada Decision Tree menggunakan nilai diskrit sehingga data perlu didiskritkan. Diskritisasi dilakukan menggunakan K-Means. Sistem dibagi menjadi dua skema yaitu skema Information Gain (IG) – C4.5 dan skema BPSO – C4.5. Akurasi yang diperoleh berdasarkan skema IG-C4.5 dan BPSO-C4.5 berturut-turut adalah 54% dan 99%. Pengaruh seleksi fitur terhadap klasifikasi berperan penting dalam menghindari data noise untuk memodelkan rule yang akurat. Dengan penerapan BPSO sebagai seleksi fitur mampu mencari fitur yang paling signifikan. Kata kunci : microarray data, binary particle swarm optimization, C4.5 decision tree, classification, feature selection, K-Means Abstract Cancer is one of deadly disease in the world. Cancer can be detected by representing the cancer into microarray data with measuring the changes occured in gene expression level. Cancer detection can be done by doing classification technique for microarray data. One of most algorithm that applied for classification is Decision Tree C4.5. It is a linier method which is easy to interpret and included into the algorithm which has given impact in classification but it is sensitive to noise data. Microarray data has a large features (high dimensional) which is not all features have important information (high noise) and has a small samples and causing the application is difficult and affected the accuracy. Binary Particle Swarm Optimization (BPSO) is one of searching optimization algorithm that could find an optimal feature. Rule in Decision Tree is modelled with discrete value so the data has to be discretized. Discretization is applied using K-Means. System is divided into two schemas such as Information Gain (IG) – C4.5 and BPSO – C4.5. The accuracy based on IG – C4.5 and BPSO – C4.5 schema are 54% and 99%. Feature selection has given impact to classification for avoiding noise data to build the rule accurately. With applying BPSO as feature selection can find the features significantly. Keywords: microarray data, binary particle swarm optimization, C4.5 decision tree, classification, feature selection, K-Means
Analisis Ekstraksi Fitur Principle Component Analysis Pada Klasifikasi Microarray Data Menggunakan Classification And Regression Trees Rizky Pujianto; Adiwijaya Adiwijaya; Aniq Atiqi Rohmawati
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Di era yang sudah maju seperti saat ini pendeteksian kanker bisa dilakukan dengan beberapa cara, salah satunya dengan bioinformatika, yaitu dengan menggunakan teknologi microarray. Teknologi tersebut berupa DNA yang berbentuk microchip dengan ukuran dimensi yang sangat besar. Ukuran dimensi yang besar menyebabkan lamanya perhitungan komputasinya. Untuk mengurangi masalah komputasi maka dilakukan reduksi dimensi terlebih dahulu sebelum diklasifikasi menggunakan (Classification and Regression Trees) CART. Reduksi dimensi adalah pendekatan dengan memilih komponen, komponen ini dipilih karena tidak semua atribut pada data microarray dipilih, mengingat data pada microarray sangat banyak. Komponen yang paling memiliki ciri yang dipilih agar perhitungan bisa lebih menghasilkan hasil yang optimum. Reduksi dimensi yang digunakan pada penelitian ini adalah ekstraksi fitur dengan menggunakan algoritma principle component analysis (PCA). Ekstraksi fitur biasanya digunakan untuk data kontinu dengan cara mengekstrak atributnya sehingga tersisa atribut yang dapat mengoptimalkan hasilnya. Data kanker yang digunakan ada tiga yaitu, kanker usus besar, leukimia, dan kanker paru-paru. Akurasi yang dihasilkan dari penelitian ini rata-rata diatas 70% dengan algoritma PCA untuk reduksi dimensi dan CART sebagai klasifikasinya. Kata kunci: kanker, microarray, reduksi dimensi, CART Abstract In an advanced era such as the current detection of cancer can be done in several ways, one of which is bioinformatics by using microarray technology. The technology consists of DNA that forms microchips with very large dimensions. Large size dimensions cause computational calculations. To reduce computational problems, the reduction is done before being classified using (Tree Classification and Regression) CART. Dimension reduction by selecting components, this component is selected because not all attributes in the microarray data are selected, considering that the data on the microarray is very large. Components that have the most characteristics are chosen so that calculations can produce optimal results. Dimension reduction used in this study is feature extraction using the principal component analysis (PCA) principle. Feature extraction is usually used for continuous data by extracting attributes so that they can produce attributes. There are three cancer data used, namely, colon cancer, leukemia, and lung cancer. The accuracy generated from this study averages over 70% with the PCA algorithm for reducing dimensions and CART as its classification. Key word: cancer, microarray, dimention reduction, CART
Klasifikasi Topik Berita Berbahasa Indonesia Menggunakan Multilayer Perceptron Grace Tika; Adiwijaya Adiwijaya; Niken Dwi Wahyu Cahyani
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Berita adalah salah satu representasi dari kehidupan nyata sosial yang selalu menggambarkan isu-isu yang masih banyak dan sering dibagikan oleh masyarakat. Setiap hari, selalu ada pembaruan berita sehingga menjadikannya berita yang baru dan membuat berita mengalir semakin banyak. Dengan adanya internet membuat berita lebih mudah dan cepat tersebar luaskan. Karena itu dibutuhkan sebuah sistem yang dapat melakukan klasifikasi terhadap berita agar berita tersebut dapat dikelompokkan berdasarkan kategori seperti Teknologi, Budaya, Pendidikan, dan lain-lain. Salah satu cara yang dapat mengatasi permasalah tersebut adalah dengan adanya sistem klasifikasi menggunakan Jaringan Syaraf Tiruan (JST). Metode jaringan syaraf tiruan ini dapat menciptakan suatu pola pengetahuan dengan kemampuan belajar (self organizing) dan secara optimasi, jaringan syaraf tiruan dapat menemukan jawaban terbaik. Sehingga metode jaringan syaraf tiruan ini menarik dan bagus untuk mengatasi permasalahan tersebut. Dari hasil terbaik penelitian yang didapat ini dinyatakan dalam F1-measure micro-average dengan nilai performansi mencapai 77,44% dimana data berita berbahasa Indonesia yang digunakan memiliki berbagai macam keragaman yang dapat mempengaruhi proses stemming. Kata kunci : Berita, text preprocessing, text classification, Multilayer Perceptron Abstract News is one of the representation of real social life that always illustrates issues that are still many and often shared by the community. Every day, there is always a news update so that it makes new news and makes the news flow more and more. With the internet, the news makes it easier and faster to spread. Because of that problem, it requires a system that can classify news so that the news can be grouped by categories such as Technology, Culture, Education, and others. One method that can overcome this problem is the existence of a classification system using Artificial Neural Networks (ANN). This artificial neural network method can create a pattern of knowledge with self-organizing and optimization, artificial neural networks can find the best answer. So this artificial neural network method is interesting and good for overcoming these problems. The results of this research are stated in F1-measure micro-average with performance values reaching 77.44% which is the data of Indonesian news has various types that can influence the stemming process. Keywords: News, text preprocessing, text classification, Multilayer Perceptron
Klasifikasi Topik Multi Label pada Hadis Bukhari dalam Terjemahan Bahasa Indonesia Menggunakan Random Forest Adhitia Wiraguna; Said Al Faraby; Adiwijaya Adiwijaya
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Hadis merupakan hal yang wajib untuk dipelajari dan diamalkan oleh umat Islam. Terdapat banyak jenis ajaran yang dapat diambil oleh manusia dengan mempelajari hadis. Untuk membantu umat Islam dalam mempelajari hadis, dibutuhkan sistem klasifikasi multi label untuk mengategorikan Hadis Shahih Bukhari terjemahan bahasa Indonesia berdasarkan tiga topik yaitu larangan, anjuran dan informasi. Dalam membangun sistem klasifikasi teks, terdapat berbagai metode klasifikasi yang dapat digunakan, pada penelitian ini menggunakan Random Forest (RF). Kesederhanaan algoritma RF dan kemampuan yang baik dalam menghadapi data berdimensi tinggi, membuat RF merupakan metode yang cocok dalam melakukan klasifikasi teks. Namun belum banyak diketahui kemampuan RF untuk klasifikasi multi label. Penelitian ini menggunakan metode pendekatan Problem Transformation yaitu Binary Relevance (BR) dan Label Powerset (LP) untuk mengadaptasi RF dalam membangun sistem klasifikasi teks multi label. Hasil penelitian menunjukkan bahwa performansi hamming loss yang terbaik didapat dari sistem yang menggunakan BR dan tidak menggunakan stemming yaitu sebesar 0,0663. Hasil ini menunjukkan bahwa metode BR lebih baik daripada metode LP dalam mengadaptasi algoritma RF untuk melakukan klasifikasi multi label terhadap data hadis. Hal ini dikarenakan metode BR menghasilkan model klasifikasi sebanyak jumlah label pada data hadis dan pada sisi lainnya, hasil transformasi data dari penggunaan LP membuat data yang digunakan menjadi imbalanced. Kata kunci : Klasifikasi, hadis, multi label, random forest, problem transformation Abstract Hadith is a mandatory thing to be studied and practiced by Muslims. There are many types of teachings that humans can take by studying the hadith. To assist Muslims in studying the hadith, a multi label classification system is needed to categorize Sahih Bukhari Hadi in Indonesian translation based on three topics, namely prohibition, advice and information. In building a text classification system, there are various classification methods that can be used, in this study using Random Forest (RF). The simplicity of the RF algorithm and good ability to deal with high dimensional data, make RF a suitable method of text classification. But, there is not widely known RF capability for the multi label classification. This study uses the Problem Transformation approach method, namely Binary Relevance (BR) and Label Powerset (LP) to adapt RF in building a multi label classification system. The results showed that the best hamming loss performance obtained from a system that used BR and does not use stemming which is equal to 0,0663. These results indicate that the BR method is better than the LP method in adapting the RF algorithm to perform multi label classification of hadith data. This is happened because the BR method produces a classification model of the number of labels in the hadith data and on the other hand, the transformation of data from the use of LP makes the data are imbalanced. Keywords: Classification, hadith, multi label, random forest, problem transformation
Klasifikasi Citra Multi-kelas Menggunakan Convolutional Neural Network Kamal Hasan Mahmud; Adiwijaya Adiwijaya; Said Al Faraby
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak ILSVRC (ImageNet Large Scale Visual Recognition Challenge) adalah suatu kompetisi tahunan yang melombakan klasifikasi basis data gambar yang ada pada ImageNet yang memiliki 1000 kelas dan setiap tahunnya terdapat berbagai macam arsitekturjaringan convolutional neural network (CNN) yang menjadi state of the art. CNN digunakan karena metode ini bekerja dengan sangat baik dengan volume data yang besar. Dari 1000 kelas, akan diambil 100 kelas yang akan dijadikan dataset penelitian untuk mengetahui strategi pembelajaran seperti apa pada CNN yang dapat memiliki performa terbaik dengan berbagai skenario. Skenario terbaik didapatkan dengan melakukan training dengan ukuran gambar yang kecil, lalu melakukantraining kembalidenganmemperbesarukuran gambar. Skenarioinimendapatkanakurasi sebesar 75.82%, akurasi yang cukup tinggi untuk model yang dapat mengklasifikasikan 100 kelas. Skenario ini juga memiliki performa yang paling baik dalam klasifikasi keseluruhan berdasarkan ukuran evaluasi confusionmatrix.Katakunci: convolutionalneuralnetwork,multi-kelas,klasifikasi,gambarAbstract ILSVRC (ImageNet Large Scale Visual Recognition Challenge) is a yearly competition that competes on classifyingImageNetimagedatabasethathas1000classesandeveryyear,anewarchitectureofconvolutional neural network (CNN) that becomes a state of the art emerge. CNN is used because this method works very well on a large volume of data. From 1000 classes available on ImageNet, 100 class will be used in thisresearchdatasettoknowwhichlearningstrategyforCNNperformedbestinthevaryingscenario. The best scenario is achieved by training the image in smaller resolution then training it again with a larger resolution. This scenario achieved an accuracy of 75.82%, it’s quite high for a model that can classify 100 class. It’salsoperformedbestaccordingtotheevaluationoftheconfusionmatrixgeneratedbyeachmodel.Keywords: convolutionalneuralnetwork,multi-class,classification,image
Klasifikasi Teks Multi Label Pada Hadis Dalam Terjemahanbahasa Indonesia Berdasarkan Anjuran, Larangan Dan Informasi Menggunakan Tf-idf Dan Knn Ilham Kurnia Syuriadi; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakHadis adalah segala sesuatu yang dinisbatkan kepada Nabi Muhammad SAW baik berupa perkataan,berbuatan atau sikap. Hadis merupakan pedoman hidup kedua bagi umat muslim setelah AL Qur’an.Sebagai pedoman hidup, umat muslim sangat diharuskan mempelajari Hadis. Melakukan kategorisasipada Hadis adalah salah satu cara untuk mempermudah dalam mempelajari Hadis. Penelitian inibertujuan untuk melakukan klasifikasi terhadap Hadis. Hadis yang digunakan adalah Hadis shahihImam Bukhari. Klasifikasi yang dilakukan adalah klasifikasi multi label. Kelas yang digunakan adalahkelas anjuran, larangan dan informasi. Ekstraksi fitur yang digunakan adalah N-Gram dengan nilai n = 1(unigram) dan n = 2 (bigram). Sedangkan fitur seleksi yang digunakan adalah TF-IDF. Klasifikasidigunakan menggunakan metode k-NN. Skenario percobaan dilakukan dengan mencoba beberapa nilai kpada k-NN, penambahan threshold pada df (document frequency) untuk perhitungan TF-IDF danmelakukan beberapa perubahan pada tahap preprocessing. Untuk mendapatkan hasil evaluasi yang dapatdipercaya, digunakan cross validation. Sedangkan untuk evaluasi dari sistem yang telah dibangun,dihitung menggunakan nilai F1-score. Berdasarkan beberapa percobaan yang dilakukan didapatkan nilaiF1-score terbaik sebesar 0.853. Hasil tersebut menunjukan metode k-NN lebih baik dibanding metodeANN dan metode baseline pada klasifikasi hadis multi label.Kata kunci : Klasifikasi multi label, Hadis, k-NN, TF-IDF, N-gramAbstractHadith is everything that is attributed to the Prophet Muhammad either in the form of words, works orattitudes. Hadith is the second life guide for Muslims after the Qur'an. As a way of life, Muslims arestrongly required to visit the Hadith. Categorizing the Hadith is one of many way to ease people learnHadith. This study aims to make a classification of the Hadith. The hadith used is the Imam BukhariSahih Hadith. The classification carried out is a multi label classification. The class used is a class ofrecommendations, prohibitions and information. Feature extraction used is N-Gram with a value of n = 1(unigram) and n = 2 (bigram). While the feature selection used is TF-IDF. For classification method usedis the k-NN method. The trial scenario is done by trying several k values on k-NN, the threshold on df(document frequency) for calculating TF-IDF and do some changed at the preprocessing stage. To get areliable evaluation result, cross validation used. Evaluation of the system that has been built, it iscalculated using the F1-score. Based on some of experiments conducted, the best F1-score was 0.853. These results indicate that the k-NN method is better than the ANN method and the baseline method inthe multi label hadith classification.Keywords: Multi label classification, Hadith, kNN, TF-IDF, N-gram
Klasifikasi K-Nearest Neighbor untuk Data Microarray dengan Seleksi Genetic Algorithm Shuni’atul Ma’wa; Adiwijaya Adiwijaya; Aniq Atiqi Rohmawati
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Microarray adalah teknik modern yang memfasilitasi analisis simulasi dari sejumlah data yang menggambarkan ekspresi gen yang diperlukan untuk memecahkan masalah biologis yang kompleks, seperti deteksi suatu penyakit tertentu. Data microarray memiliki karakteristik berdimensi besar, dimana banyaknya variabel respon lebih kecil dibandingkan variabel prediktor. Oleh karena itu, diperlukan skema yang didalamnya terdapat proses reduksi dimensi dan proses klasifikasi. Dalam hal ini, proses reduksi dimensi bertujuan untuk meringankan beban komputasi serta menghindari overfitting pada klasifikasi. Proses reduksi yang digunakan pada penelitian ini yaitu seleksi fitur Genetic Algorithm (GA). Kemudian, proses klasifikasi yang bertujuan untuk mendeteksi penyakit kanker atau bukan kanker dilakukan dengan menggunakan metode klasifikasi K-Nearest Neighbor (KNN). Adapun akurasi dari metode GA-KNN pada data tumor usus, kanker paru-paru, dan kanker darah memiliki rata rata akurasi sebesar 95,01%. Kata Kunci: K-Nearest Neighbor, Genetic Algorithm, Deteksi Kanker, Data Microarray
Analisis Perbandingan Reduksi Dimensi Principal Component Analysis (pca) Dan Partial Least Square (pls) Untuk Deteksi Kanker Menggunakan Data Microarray Daniel Tanta Christopher Sirait; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakMenurut data WHO (World Health Organization) pada tahun 2015, 8.8 juta kematian diakibatkan olehkanker dimana angka kematian tersebut meningkat dan berkakibat fatal setiap tahunnya bila diagnosatidak dilakukan lebih dini. Oleh karena itu , tidak heran penelitian dalam bidang kanker menjadi topikutama dalam penelitian di bidang medis dan bioinformatika dan terus berkembang hingga saat ini, termasukteknologi DNA microarray. Banyak cara untuk mendeteksi kanker, salah satunya adalah teknikmicroarray. Microarray adalah teknologi yang mampu menyimpan ribuan ekspresi gen yang diambil daribeberapa jaringan manusia sekaligus. Dikarenakan oleh record data microarray yang banyak, komputasiyang dibutuhkan cukup berat. Untuk mengatasi masalah tersebut, dibutuhkan reduksi dimensi. Pada penelitianini, sistem menggunakan dua fitur ekstrasi: Principal Component Analysis (PCA) dan Partial LeastSquare (PLS) dengan Support Vector Machine (SVM) sebagai classifier. Hal ini berguna untuk mengurangiattribute yang terlalu banyak. Sistem yang dibangun mampu mengklasifikasi kanker dan memperoleh nilairata-rata 82% dengan PCA-SVM dan 55.17% untuk PLS-SVM.Kata kunci : kanker, microarray, principal component analysis, partial least square, support vector machine.AbstractAccording to WHO data in 2015 (World Health Organization), 8.8 million deaths were caused by cancerwhere the mortality rate increased and was fatal every year if the diagnosis was not made earlier. Therefore,it is not surprising that research in the field of cancer has become a major topic in research in the medicaland bioinformatics fields and continues to grow to date, including DNA microarray technology. There aremany ways to detect cancer, one of which is the microarray technique. Microarray is a technology thatcan store thousands of gene expressions taken from several human tissues at once. Due to a large numberof microarray data records, the computing required is quite heavy. To overcome this problem, dimensionreduction is needed. In this study, the system uses two extraction features: Principal Component Analysis(PCA) and Partial Least Square (PLS) with Support Vector Machine (SVM) as a classifier. This is usefulto reduce the large amount of attributes. The accuracy generated from this system averaged 82% withPCA-SVM and 55.17% for PLS-SVM.Keywords: cancer, microarray, principal component analysis, partial least square, support vector machine.
Klasifikasi Multilabel Pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Mutual Information Dan Support Vector Machine Mohamad Irwan Afandi; Adiwijaya Adiwijaya; Widi Astuti
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

AbstrakHadis merupakan sumber hukum kedua bagi umat Islam setelah Al-Quran. Banyak sekali hadis yang telahdiriwayatkan, namun Hadis Bukhari memiliki tingkat kesahihan paling tinggi menurut para ulama. Seiringdengan perkembangan teknologi, hadis sangatlah mudah didapatkan melalui dunia digital. Akan tetapi untukmempelajari hadis tidak semudah yang kita bayangkan. Banyaknya hadis yang ada dan juga belumdikategorikan membuat belajar hadis dengan kategori tertentu sangat sulit dilakukan. Oleh sebab itu penulismelakukan penelitian klasifikasi anjuran, larangan dan informasi pada Hadis Sahih Al-Bukhari terjemahanBahasa Indonesia yang diharapkan dapat mempermudah masyarakat dalam mempelajari hadis. Prosesklasifikasi menggunakan model unigram/bigram dengan Mutual Information (MI) sebagai seleksi fitur danSupport Vector Machine (SVM) sebagai metode klasifikasi. Pada penelitian ini dilakukan beberapa skenariopengujian dengan memodifikasi term model, preprocessing, feature selection dan menggunakan beberapametode klasifikasi untuk membuktikan bahwa SVM merupakan salah satu metode klasifikasi teks yang cocokdigunakan. Pengujian dengan menggunakan model unigram, tidak menggunakan stopword/stemming,menggunakan MI dan menggunakan SVM memberikan nilai hamming loss terbaik yaitu 0.0686. Hasilpenelitian yang diperoleh juga menunjukkan bahwa metode SVM dengan menggunakan MI lebih baikdaripada metode klasifikasi teks yang lain.Kata kunci: Hadis Bukhari, Hamming loss, Klasifikasi, Mutual Information, Preprocessing, Support Vector Machine.AbstractHadith is the second source of law and guidance for Muslims after the Qur’an. There are many hadiths thathave been narrated, but Bukhari’s hadith has the highest level of validity according to the Islamic scholar.Along with the development of technology, hadith is very easy to obtain trough the digital world. However,learning hadith is not as easy as we imagine. The number of hadiths that exist and also not have beencategorized make learning hadith with specific categories very difficult to do. Therefore, the author conducteda research about classification of suggestion, prohibition and information on Bukhari’s hadith that wastranslated to the Indonesian language which is expected to facilitate the public in learning hadith easily. Theclassification process uses unigram/bigram model with Mutual Information (MI) as feature selection andSupport Vector Machine (SVM) as classification method. This research used several scenarios of testing bymodifying the term model, preprocessing, selection feature and some kind of classification method to provethat SVM is one of the text classification method that suitable to use. Testing using a unigram model, withoutstopword removal or stemming, using MI and also SVM gives the best hamming loss value, it is 0.0686. The research also indicates that SVM with MI produces higher accuracy than other text classification methods. Keyword: Bukhari’s Hadith, Classification, Hamming loss, Mutual Information, Preprocessing, SupportVector Machine.
Co-Authors A Rakha Ahmad Taufiq Abu Bakar, Muhammad Yuslan Ade Iriani Sapitri Ade Sumiahadi, Ade Adhitia Wiraguna Adhitia Wiraguna Aditya Arya Mahesa Adnan Imam Hidayat Adwin Rahmanto Afrian Hanafi Al Faraby, Said Al Mira Khonsa Izzaty Alfian Akbar Gozali Alvi Syah Amalya Citra Pradana Amir Andi Ahmad Irfa ANDI FUTRI HAFSAH MUNZIR Andina Kusumaningrum Andri Saputra Andrian Fakhri Andriyan B Suksmono Anggitha Yohana Clara Aniq Atiqi Aniq Atiqi Rohmawati Anisa Salama Annas Wahyu Ramadhan Annisa Adistania Annisa Aditsania Antika Putri Permata Wardani Aras Teguh Prakasa Astrid Frillya Septiany Astrima Manik Aziz, Muhammad Maulidan Azmi Hafizha Rahman Zainal Arifin Bambang Riyanto T. Bayu Julianto Bayu Munajat Bayu Munajat Bayu Rahmat Setiaji Bernadus Seno Aji Bernadus Seno Aji Bintang Peryoga Bisma Pradana Brama Hendra Mahendra Chiara Janetra Cakravania Clarisa Hasya Yutika D. R. Suryandari Dana Sulistiyo Kusumo Danang Triantoro Danang Triantoro Murdiansyah Daniel Tanta Christopher Sirait Dany Dwi Prayoga Dany Dwi Prayoga Della Alfarydy Akbar Deni Saepudin Denny Alriza Pratama Desi Sitompul Dewangga, Dhiya Ulhaq Dian Chusnul Hidayati Didi Rosiyadi Didit Adytia Dinda Karlia Destiani Dody Qori Utama Dody Qory Utama Dwi Yanita Apriliyana Dwi Yanita Apriliyana Dwifebri, Mahendra Eko Darwiyanto Eliza Jasin Elza Oktaviana Elza Oktaviana Endro Ariyanto Ergon Rizky Perdana Purba F. A. Yulianto Fachri Pane, Syafrial Fahmi Salman Nurfikri Faris Alfa Mauludy Faris Alfa Mauludy Farudi Erwanda Farudi Erwanda Fathur Rohman Fathurrohman Elkusnandi Fhira Nhita Fikri Rozan Imadudin Firda A. Ma’ruf Firdausi Nuzula Zamzami Firly Juanita Surahman Fuad Ash Shiddiq Gde Agung Brahmana Suryanegara Ghozy Ghulamul Afif Gia Septiana Gia Septiana Gia Septiana Gilang Rachman Perdana Gilang Rachman Perdana Gilang Titah Ramadhani Grace Tika Guntoro Guntoro Guntoro Guntoro Guntoro Guntoro Hadyan Arif Hafidudin . Hafizh Fauzan Hafizh Fauzan Hendro Prasetyo Henri Tantyoko Honakan Honakan I Kadek Haddy W. I Made Riartha Prawira I.G.N.P.Vasu Geramona Ilham Kurnia Syuriadi Ilham Yunirakhman Imadudin, Fikri Rozan Imam Prayoga Indriani Indriani Irene Yulietha Irma Irma Irma Palupi Irwinda Famesa Iyon Priyono Jendral Muhamad Yusuf Zia Ul Haq Jenepte Wisudawati Simanullang K, Kasnaeny Kamal Hasan Mahmud Kemas Muslim Lhaksmana Kemas Rahmat Saleh Raharja Kemas Rahmat Saleh Wiharja Kurnia C Widiastuti Kurniawan W. Handito Laila Putri Lalu Gias Irham Lisa Marianah Lisa Marianah Luke Manuel Daely Mahendra Dwifebri P Mahendra Dwifebri Purbolaksono Mahmud Dwi Sulistiyo Melanida Tagari Melanida Tagari Michael Sianturi Milah Sarmilah Moc. Arif Bijaksana Mochamad Agusta Naofal Hakim Mochammad Naufal Rizaldi Mohamad Irwan Afandi Mohamad Mubarok Mohamad Syahrul Mubarok Mohamad Syahrul Mubarok Mohammad Syahrul Mubarok Monica Triyani Muhammad Afianto Muhammad Enzi Muzakki Muhammad Fauzan Muhammad Feridiansyah Muhammad Ghufran Muhammad Irvan Tantowi Muhammad Kenzi Muhammad Mubarok Muhammad Mujaddid Muhammad Naufal Mukhbit Amrullah Muhammad Nurjaman Muhammad Shiddiq Azis Muhammad Shiddiq Azis Muhammad Surya Asriadie Muhammad Syahrul Mubarok Muhammad Yuslan Abu Bakar Nanda Prayuga Nida Mujahidah Azzahra Nida Mujahidah Azzahra Niken Dwi Wahyu Cahyani Novelty Octaviani Faomasi Daeli Novia Russelia Wassi Nuklianggraita, Tita Nurul Nur Ghaniaviyanto Ramadhan Oscar Ramadhan Pinem, Joshua Pratama Dwi Nugraha Preddy Desmon Purbalaksono, Mahendra Dwifebri Putri, Dinda Rahma Putri, Dita Julaika Raihana Salsabila Darma Wijaya Rendi Kustiawan Reynaldi Ananda Pane Riche Julianti Wibowo Riko Bintang Purnomoputra Riska Chairunisa Rizki Syafaat Amardita Rizky Pujianto Rizma Nurviarelda Roberd Saragih Rosyadi, Ramadhana Said Faraby Satria Mandala Sekar Kinasih Semeidi Husrin Sheila Annisa Shidqi Aqil Naufal Shuni’atul Ma’wa Sigit Bagus Setiawan St.Sukmawati S. Sugeng Hadi Wirasna Suriyanti Suriyanti Syafrial Fachri Pane, Syafrial Fachri Syahrizal Rizkiana Rusamsi Syam, Mukhlisah Syifa Khairunnisa Talitha Kayla Amory Tati LR Mengko Tesha Tasmalaila Hanif Timami Hertza Putrisanni Tita Nurul Nuklianggraita Triyani, Monica Try Moloharto Untari Novia Wisesty Untari Wisesty Untari. N. Wisesty Untary Novia Wisesty Vina Mutiara Purnama Warih Maharani Widi Astuti Widi Astuti Widi Astuti Winda Christina Widyaningtyas Wisnu Adhi Pradana Yana Meinitra Wati Yoga Widi Pamungkas Yuliant Sibaroni Zahra Putri Agusta Zakia Firdha Razak Zulfikar Fauzi