Garuda - Garba Rujukan Digital

Jurnal TIMES

Vol 14 No 2 (2025): Jurnal TIMES

Khainur, Ahmad Fauzidan Yahya (Unknown)
Yuares, Taufiqurrohman (Unknown)
Fathurrohman, Muhammad Hafiz (Unknown)
Widianingsih (Unknown)
Rozikin, Chaerur (Unknown)

Publish Date
10 Dec 2025

Pertumbuhan data teks tidak terstruktur menuntut metode pra-pemrosesan (preprocessing) yang efektif untuk analisis sentimen. Penelitian ini mengembangkan dan membandingkan dua pipeline automasi pembersihan data (data cleaning) berbasis Python menggunakan dataset IMDB Movie Reviews (50.000 sampel). Pipeline pertama menerapkan pendekatan Berbasis Aturan (Rule-Based) menggunakan ekspresi reguler (Regex), sedangkan pipeline kedua menerapkan pendekatan Berbasis Lemmatisasi menggunakan pustaka NLTK. Kualitas data hasil pembersihan dievaluasi menggunakan algoritma Multinomial Naive Bayes dan Logistic Regression dengan ekstraksi fitur TF-IDF (Unigram dan Bigram). Hasil eksperimen menunjukkan bahwa pendekatan Berbasis Aturan (Regex) secara signifikan lebih efisien dalam waktu komputasi (8,87 detik vs 38,43 detik) dan menghasilkan akurasi yang sedikit lebih tinggi (89,43% vs 88,93% pada Logistic Regression) dibandingkan pendekatan Lemmatisasi. Penelitian ini menyimpulkan bahwa untuk analisis sentimen pada dataset ulasan film berskala besar, pembersihan data sederhana berbasis pola (pattern-based) lebih efektif dan efisien daripada normalisasi linguistik yang kompleks, serta menegaskan pentingnya pemilihan teknik preprocessing yang tepat dalam siklus hidup rekayasa data.

Citation Download

EndNote, Reference Manager, ProCite

Latex, Jabref

Check in Google Scholar

Journal Info

Jurnal TIMES

Website

Abbrev

TIMES

Publisher

Sekolah Tinggi Manajemen Informatika dan Komputer TIME

Subject

Description

Jurnal TIMES merupakan salah satu media yang digunakan untuk menampung penelitian dosen maupun mahasiswa. Topik dalam jurnal yang terkandung seputar Ilmu Komputer seperti keamanan komputer, jaringan komputer, algoritma, kecerdasan buatan, dll. Diharapkan dengan adanya media ini dapat membuat para ...

Article Info

Abstract

ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN

Article Info

Abstract