Claim Missing Document
Check
Articles

Klasifikasi Teks Multi Label Pada Hadis Terjemahan Bahasa Indonesia Menggunakan Chi-square Dan Svm Fakhri Taufiqurrahman; Said Al Faraby; Mahendra Dwifebri Purbolaksono
eProceedings of Engineering Vol 8, No 5 (2021): Oktober 2021
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Hadis yaitu pedoman dalam islam setelah Al-Quran yang dijadikan sebagai sumber hukum dalam islam. Akan tetapi terdapat permasalahan ketika mentukan hadis mana saja yang merupakan anjuran, larangan, dan informasi. Oleh karena itu dibutuhkan klasifikasi teks untuk mengelompokan hadis ke dalam satu atau lebih dari anjuran, larangan, dan informasi, yang disebut dengan klasifikasi multi-label. Permasalahan dalam klasifikasi teks yaitu terdapat banyak fitur, sehingga perlu dilakukan seleksi fitur dengan tujuan memangkas fitur yang ada kemudian mentukan fitur paling berpengaruh terhadap kelas target. Pada penelitian ini Chi-Square digunakan untuk melakukan seleksi fitur dan Support Vector Machine (SVM) untuk melakukan klasifikasi teks. Dengan menggunakan metode evaluasi performa Macro F1-Score hasil yang didapat ketika menggunakan Chi-Square dan SVM yaitu sebesar 75.32%. Kata kunci : hadis, klasifikasi teks, multi-label, chi-square, support vector machine.
A Multi-Label Classification of Al-Quran Verses Using Ensemble Method and Naïve Bayes Choirulfikri, Muhammad Rizqi; Lhaksamana, Kemas Muslim; Faraby, Said Al
Building of Informatics, Technology and Science (BITS) Vol 3 No 4 (2022): March 2022
Publisher : Forum Kerjasama Pendidikan Tinggi

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (338.199 KB) | DOI: 10.47065/bits.v3i4.1287

Abstract

Al-Quran is the holy book as a guide and also a source of law for muslims. Thus, understanding and studying Al-Quran is very important for muslims. To make it easier for muslims to understand and study the Qur'an, it is necessary to classify the verses of the Al-Qur'an. This study built a system that can perform multi-label classification of Al-Quran verses. Multi-label means that the classification will divide each verse of the Al-Quran into more than 1 topic. The model is built using the ensemble method by combining several Naïve Bayes algorithms. The ensemble method was chosen because research with different datasets can obtain good performance. The naïve Bayes algorithm was also chosen because it has a simple calculation so it requires a fairly short computation time. The preprocessing step is also carried out to see the comparison of performance results. To measure the performance of the system that has been built, the calculation of hamming loss is used. Based on the experimental results with several testing scenarios, the best performance results are obtained by combining Multinomial NB and Bernoulli NB with a hamming loss value of 0.1167. Thus, the use of the ensemble method can improve performance compared to without the ensemble method. This research can also of course build a multi-label classification model for the verses of Al-Quran with the ensemble method
Sentiment Analysis on a Large Indonesian Product Review Dataset Romadhony, Ade; Al Faraby, Said; Rismala, Rita; Wisesty, Untari Novia; Arifianto, Anditya
Journal of Information Systems Engineering and Business Intelligence Vol. 10 No. 1 (2024): February
Publisher : Universitas Airlangga

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.20473/jisebi.10.1.167-178

Abstract

Background: The publicly available large dataset plays an important role in the development of the natural language processing/computational linguistic research field. However, up to now, there are only a few large Indonesian language datasets accessible for research purposes, including sentiment analysis datasets, where sentiment analysis is considered the most popular task. Objective: The objective of this work is to present sentiment analysis on a large Indonesian product review dataset, employing various features and methods. Two tasks have been implemented: classifying reviews into three classes (positive, negative, neutral), and predicting ratings. Methods: Sentiment analysis was conducted on the FDReview dataset, comprising over 700,000 reviews. The analysis treated sentiment as a classification problem, employing the following methods: Multinomial Naí¯ve Bayes (MNB), Support Vector Machine (SVM), LSTM, and BiLSTM. Result: The experimental results indicate that in the comparison of performance using conventional methods, MNB outperformed SVM in rating prediction, whereas SVM exhibited better performance in the review classification task. Additionally, the results demonstrate that the BiLSTM method outperformed all other methods in both tasks. Furthermore, this study includes experiments conducted on balanced and unbalanced small-sized sample datasets. Conclusion: Analysis of the experimental results revealed that the deep learning-based method performed better only in the large dataset setting. Results from the small balanced dataset indicate that conventional machine learning methods exhibit competitive performance compared to deep learning approaches.   Keywords: Indonesian review dataset, Large dataset, Rating prediction, Sentiment analysis
Perbandingan Algoritma Machine Learning untuk Analisis Sentimen Berbasis Aspek pada Review Female Daily Wicaksono, Muhammad Hadiyan; Purbolaksono, Mahendra Dwifebri; Faraby, Said Al
eProceedings of Engineering Vol. 10 No. 3 (2023): Juni 2023
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak-Beredar produk produk kecantikan yang di jual di internet oleh berbagai macam produsen baik luar negeri maupun dalam negeri. Akan tetapi masih diragukan kualitas kosmetik yang dijual oleh tiap produsen, agar mengetahui apakah produk tersebut baik digunakan maka produsen perlu mendapatkan ulasan/review dari konsumen yang memakai produk tersebut. Untuk itu agar produsen lebih mudah untuk mencari produk yang relevan dengan kesehatan maka dibutuhkan sebuah sistem untuk mengklasifikasikan review produk tersebut termasuk kategori relevan atau tidak relevan terhadap aspek kesehatan. Pada Tugas Akhir ini digunakan Machine learning pada klasifikasi sentimen menggunakan Random Forest, Support Vector Machine(SVM), dan K-Nearest Neighbour(KNN) untuk mencari accuracy tertinggi dan F1-score dari ketiga algoritma tersebut dengan menggunakan feature extraction yaitu chi-square dengan feature selection menggunakan Selected K Best untuk proses preprocessing. Dalam penelitian ini telah diperoleh analisis hasil bahwa algoritma SVM dengan kernel Linear mendapatkan nilai akurasi terbaik sebesar 67.10%.Kata kunci-perbandingan, analisis sentimen, KNN, random forest, SVM, chi- square, selected K Best, female daily, kesehatan
Peringkasan Artikel Berita Menggunakan Pendekatan Abstraktif Dengan Model Transformers Affan Fattahila, Ananda; Romadhony, Ade; Al Faraby, Said
eProceedings of Engineering Vol. 10 No. 5 (2023): Oktober 2023
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak— Membaca artikel berita merupakan kebiasan rutin bagi mayoritas orang, di mana biasanya digunakan sebagai bahan bacaan atau referensi untuk mendapatkan informasi terbaru yang sedang beredar. Salah satu bentuk atau cara mendapatkan informasi secara cepat dapat dipermudah dengan keberadaan ringkasan artikel berita. Peringkasan artikel berita juga dapat meminimalkan informasi yang berlebihan. Tujuan Tugas Akhir ini adalah menghasilkan ringkasan dengan kualitas yang lebih baik pada beberapa topik berita yang performansinya rendah karena keterbatasan data. Pendekatan peringkasan yang digunakan adalah metode abstraktif dengan memanfaatkan pre-trained model berbasis transformers. Pre-trained model yang digunakan adalah T5-small dan BART-BASE serta untuk meningkatkan performansi, diterapkan proses augmentasi data. Pengujian pada Tugas Akhir ini dilakukan pada dataset XLSum Multi News, yang berisi kategori government & politic, health, economic, infrastructure development, crime dan technology industry dengan crime dan economic mempunyai kualitas ringkasan paling rendah. Evaluasi terhadap hasil ringkasan dilakukan secara otomatis dengan metriks ROUGE dan penilaian secara subyektif dari responden. Hasil evaluasi menunjukkan bahwa dari skor ROUGE tidak terjadi peningkatan performansi, namun responden menyimpulkan bahwa dari sisi relevansi, koherensi, dan kesesuaian, ringkasan yang dihasilkan setelah dilakukan augmentasi data mempunyai kualitas yang lebih baik.Kata Kunci — Berita, Artikel, Peringkasan, Abstraktif, Augmentasi Data, Transformers