Platform komunitas tanya-jawab atau Community Question Answering (CQA) telah menjadi sumber informasi yang penting namun menghadapi tantangan, salah satunya adalah adanya pertanyaan insincere. Pertanyaan insincere ini mengacu pada pertanyaan yang tidak tulus dan sering didasarkan pada asumsi keliru, yang dapat mengganggu kenyamanan pengguna dan menyebabkan penyebaran informasi yang menyesatkan. Oleh karena itu, diperlukan deteksi pertanyaan insincere. Penelitian ini bertujuan untuk mengevaluasi pengaruh teknik preprocessing teks terhadap kinerja algoritma Multinomial Naïve Bayes (MNB) dalam mengklasifikasikan pertanyaan insincere. Data yang digunakan terdiri dari 4000 pertanyaan dari Quora, dengan masing-masing 2000 pertanyaan berlabel insincere dan 2000 berlabel sincere. Pembobotan kata dilakukan menggunakan TF-IDF. Terdapat 4 skenario pengujian yang berfokus pada variasi tahap preprocessing untuk mengetahui pengaruh preprocessing terhadap akurasi sistem. Skenario tersebut adalah MNB dengan stemming, MNB dengan lemmatization, MNB tanpa stemming, dan MNB dengan stemming tanpa stopword removal. Pengujian dilakukan menggunakan teknik k-Fold Cross Validation. Hasil uji coba menunjukkan bahwa skenario MNB dengan stemming tanpa stopword removal memberikan hasil terbaik dengan akurasi 83%, presisi 78%, recall 94%, dan F1-score 85%. Sehingga dapat disimpulkan bahwa pemilihan teknik pemrosesan teks yang tepat sangat penting untuk meningkatkan kinerja teks, khususnya dalam mendeteksi pertanyaan insincere pada platform CQA.
Copyrights © 2024