This Author published in this journals
All Journal Jurnal TIMES
Khainur, Ahmad Fauzidan Yahya
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN Khainur, Ahmad Fauzidan Yahya; Yuares, Taufiqurrohman; Fathurrohman, Muhammad Hafiz; Widianingsih; Rozikin, Chaerur
Jurnal TIMES Vol 14 No 2 (2025): Jurnal TIMES
Publisher : STMIK TIME

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pertumbuhan data teks tidak terstruktur menuntut metode pra-pemrosesan (preprocessing) yang efektif untuk analisis sentimen. Penelitian ini mengembangkan dan membandingkan dua pipeline automasi pembersihan data (data cleaning) berbasis Python menggunakan dataset IMDB Movie Reviews (50.000 sampel). Pipeline pertama menerapkan pendekatan Berbasis Aturan (Rule-Based) menggunakan ekspresi reguler (Regex), sedangkan pipeline kedua menerapkan pendekatan Berbasis Lemmatisasi menggunakan pustaka NLTK. Kualitas data hasil pembersihan dievaluasi menggunakan algoritma Multinomial Naive Bayes dan Logistic Regression dengan ekstraksi fitur TF-IDF (Unigram dan Bigram). Hasil eksperimen menunjukkan bahwa pendekatan Berbasis Aturan (Regex) secara signifikan lebih efisien dalam waktu komputasi (8,87 detik vs 38,43 detik) dan menghasilkan akurasi yang sedikit lebih tinggi (89,43% vs 88,93% pada Logistic Regression) dibandingkan pendekatan Lemmatisasi. Penelitian ini menyimpulkan bahwa untuk analisis sentimen pada dataset ulasan film berskala besar, pembersihan data sederhana berbasis pola (pattern-based) lebih efektif dan efisien daripada normalisasi linguistik yang kompleks, serta menegaskan pentingnya pemilihan teknik preprocessing yang tepat dalam siklus hidup rekayasa data.