Pertumbuhan data teks tidak terstruktur menuntut metode pra-pemrosesan (preprocessing) yang efektif untuk analisis sentimen. Penelitian ini mengembangkan dan membandingkan dua pipeline automasi pembersihan data (data cleaning) berbasis Python menggunakan dataset IMDB Movie Reviews (50.000 sampel). Pipeline pertama menerapkan pendekatan Berbasis Aturan (Rule-Based) menggunakan ekspresi reguler (Regex), sedangkan pipeline kedua menerapkan pendekatan Berbasis Lemmatisasi menggunakan pustaka NLTK. Kualitas data hasil pembersihan dievaluasi menggunakan algoritma Multinomial Naive Bayes dan Logistic Regression dengan ekstraksi fitur TF-IDF (Unigram dan Bigram). Hasil eksperimen menunjukkan bahwa pendekatan Berbasis Aturan (Regex) secara signifikan lebih efisien dalam waktu komputasi (8,87 detik vs 38,43 detik) dan menghasilkan akurasi yang sedikit lebih tinggi (89,43% vs 88,93% pada Logistic Regression) dibandingkan pendekatan Lemmatisasi. Penelitian ini menyimpulkan bahwa untuk analisis sentimen pada dataset ulasan film berskala besar, pembersihan data sederhana berbasis pola (pattern-based) lebih efektif dan efisien daripada normalisasi linguistik yang kompleks, serta menegaskan pentingnya pemilihan teknik preprocessing yang tepat dalam siklus hidup rekayasa data.
Copyrights © 2025