FaST : Jurnal Sains dan Teknologi
Vol. 9 No. 1 (2025): NOVEMBER

Memanfaatkan R untuk Preprocessing Data yang Efisien dalam Analisis Prediktif : [Leveraging R for Efficient Data Preprocessing in Predictive Analytics]

Yudistira, I Gusti Agung Anom (Unknown)



Article Info

Publish Date
11 Nov 2025

Abstract

The digital era has triggered a data explosion, demanding efficient data preprocessing capabilities. The R programming language, supported by a wide range of packages, offers effective solutions for preprocessing tasks, particularly in handling missing values. This study aims to demonstrate the practical and efficient use of R in improving the quality of predictive models and to provide a practical guide for academics and practitioners. The research adopts a descriptive-exploratory approach through a case study using R for data preprocessing. The stages include data collection, data cleaning and transformation, result visualization, optional predictive analysis, and systematic documentation as a practical guide. The data imputation process in R begins with analyzing variable correlations and distributions using scatter plot matrices and histograms, followed by selecting appropriate imputation methods such as linear regression, mean, or median. R facilitates this process through its comprehensive functions and visualization tools. As this study does not address all aspects of data preprocessing—particularly missing data handling—it is recommended that future research explore alternative imputation techniques such as k-nearest neighbors (kNN) and other preprocessing components. Bahasa Indonesia Abstract: Era digital menghasilkan ledakan data yang menuntut kemampuan preprocessing data yang efisien. Bahasa R, dengan berbagai paket pendukungnya, menawarkan solusi efektif untuk preprocessing, khususnya dalam penanganan missing values. Penelitian ini bertujuan mendemonstrasikan pemanfaatan R untuk meningkatkan kualitas model prediktif dan memberikan panduan praktis bagi akademisi serta praktisi.  Metodologi yang digunakan dalam penelitian adalah metode deskriptif eksploratif dengan studi kasus menggunakan R untuk preprocessing data. Tahapannya meliputi pengumpulan data, pembersihan dan transformasi data, visualisasi hasil, serta dokumentasi langkah-langkah sebagai panduan praktis.  Pada penelitian ini dilakukan percobaan dengan membangun data simulasi, yang dihasilkan dari data besar yang sudah bersih, kemudian dibuat dibuat menjadi data yang tidak lengkap dengan memanfaatkan paket R messy. Proses imputasi data dengan R dimulai dari analisis korelasi dan distribusi variabel menggunakan scatter plot matrix dan histogram, memilih metode imputasi yang sesuai seperti regresi linear, rata-rata, atau median. R memudahkan proses ini lewat fungsi dan visualisasi yang lengkap.  Hasil evaluasi dilakukan dengan membandingkan bentuk sebaran data asli, dengan data simulasi yang telah dibersihkan.  Hasil yang diberikan menunjukkan bahwa kedua data memberikan bentuk sebaran yang tidak signifikan.

Copyrights © 2025






Journal Info

Abbrev

FaSTJST

Publisher

Subject

Computer Science & IT Environmental Science

Description

Started in 2017, FaST publishes articles in the areas of science and technology, particularly in food technology, biology, electrical engineering, industrial engineering, mathematics and civil engineering. Articles are either reviews and/or research ...