Jurnal TIMES
Vol 14 No 2 (2025): Jurnal TIMES

ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN

Khainur, Ahmad Fauzidan Yahya (Unknown)
Yuares, Taufiqurrohman (Unknown)
Fathurrohman, Muhammad Hafiz (Unknown)
Widianingsih (Unknown)
Rozikin, Chaerur (Unknown)



Article Info

Publish Date
10 Dec 2025

Abstract

Pertumbuhan data teks tidak terstruktur menuntut metode pra-pemrosesan (preprocessing) yang efektif untuk analisis sentimen. Penelitian ini mengembangkan dan membandingkan dua pipeline automasi pembersihan data (data cleaning) berbasis Python menggunakan dataset IMDB Movie Reviews (50.000 sampel). Pipeline pertama menerapkan pendekatan Berbasis Aturan (Rule-Based) menggunakan ekspresi reguler (Regex), sedangkan pipeline kedua menerapkan pendekatan Berbasis Lemmatisasi menggunakan pustaka NLTK. Kualitas data hasil pembersihan dievaluasi menggunakan algoritma Multinomial Naive Bayes dan Logistic Regression dengan ekstraksi fitur TF-IDF (Unigram dan Bigram). Hasil eksperimen menunjukkan bahwa pendekatan Berbasis Aturan (Regex) secara signifikan lebih efisien dalam waktu komputasi (8,87 detik vs 38,43 detik) dan menghasilkan akurasi yang sedikit lebih tinggi (89,43% vs 88,93% pada Logistic Regression) dibandingkan pendekatan Lemmatisasi. Penelitian ini menyimpulkan bahwa untuk analisis sentimen pada dataset ulasan film berskala besar, pembersihan data sederhana berbasis pola (pattern-based) lebih efektif dan efisien daripada normalisasi linguistik yang kompleks, serta menegaskan pentingnya pemilihan teknik preprocessing yang tepat dalam siklus hidup rekayasa data.

Copyrights © 2025






Journal Info

Abbrev

TIMES

Publisher

Subject

Description

Jurnal TIMES merupakan salah satu media yang digunakan untuk menampung penelitian dosen maupun mahasiswa. Topik dalam jurnal yang terkandung seputar Ilmu Komputer seperti keamanan komputer, jaringan komputer, algoritma, kecerdasan buatan, dll. Diharapkan dengan adanya media ini dapat membuat para ...