Penelitian ini menerapkan Natural Language Processing (NLP) dengan Bidirectional Encoder Representations from Transformers (BERT) yang dikombinasikan dengan Convolutional Neural Network (CNN) untuk klasifikasi multi-label diskusi keagamaan serta mengasosiasikannya dengan ayat Al-Qur’an dan Hadits. Dataset yang digunakan berasal dari diskusi keagamaan dan pertanyaan jamaah kepada ustaz yang diunggah di berbagai platform digital, seperti YouTube, Facebook, Instagram, dan situs web. Model NLP berbasis BERT digunakan untuk merepresentasikan teks secara kontekstual, sementara CNN digunakan untuk mengekstraksi fitur dan melakukan klasifikasi multi-label. Eksperimen dilakukan untuk mengeksplorasi kombinasi parameter dan pendekatan preprocessing teks guna meningkatkan akurasi klasifikasi. Hasil menunjukkan bahwa tuning hyperparameter meningkatkan F1-Score pada konfigurasi parameter ke-2 (E2) dari 0.7046 menjadi 0.7789 dan pada konfigurasi parameter ke-5 (E5) dari 0.7073 menjadi 0.7734, serta menurunkan Hamming Loss, yang mengindikasikan peningkatan akurasi prediksi label. Threshold 0.40 ditemukan sebagai nilai optimal untuk keseimbangan Precision dan Recall, yang berkontribusi terhadap peningkatan Subset Accuracy. Penelitian ini diharapkan dapat berkontribusi dalam pengembangan teknologi NLP berbasis bahasa Indonesia untuk klasifikasi multi-label teks keagamaan serta membuka peluang penerapan dalam aplikasi kecerdasan buatan guna meningkatkan akses informasi keagamaan secara cepat dan akurat. Abstract This study applies Natural Language Processing (NLP) using Bidirectional Encoder Representations from Transformers (BERT) combined with Convolutional Neural Networks (CNN) for multi-label classification of religious discussions and their association with verses of the Qur’an and Hadith. The dataset was obtained from religious discussions and congregants’ questions addressed to ustaz, collected from various digital platforms such as YouTube, Facebook, Instagram, and websites. The BERT-based NLP model was employed to represent text contextually, while CNN was used to extract features and perform multi-label classification. Experiments were conducted to explore parameter combinations and text preprocessing approaches to improve classification accuracy. The results show that hyperparameter tuning increased the F1-Score in the second parameter configuration (E2) from 0.7046 to 0.7789 and in the fifth configuration (E5) from 0.7073 to 0.7734, while reducing the Hamming Loss, indicating an improvement in label prediction accuracy. A threshold of 0.40 was found to be the optimal value for balancing Precision and Recall, contributing to an increase in Subset Accuracy. This research is expected to contribute to the development of Indonesian-language NLP technology for multi-label classification of religious texts and to open opportunities for practical applications in artificial intelligence systems to enhance rapid and accurate access to religious information.
Copyrights © 2025