Jurnal Teknologi Informasi dan Ilmu Komputer
Vol 12 No 2: April 2025

Penerapan Feature Engineering dan Hyperparameter Tuning untuk Meningkatkan Akurasi Model Random Forest pada Klasifikasi Risiko Kredit

Nur Fauzi, Nadea Putri (Unknown)
Khomsah, Siti (Unknown)
Putra Wicaksono, Aditya Dwi (Unknown)



Article Info

Publish Date
24 Apr 2025

Abstract

  Risiko kredit adalah hal yang penting untuk dianalisis di awal pengajuan kredit guna mengurangi nilai Non-Performing Loan (NPL) atau risiko gagal bayar. Pola pengetahuan risiko kredit bisa diketahui dari data-data historikal sehingga data pengajuan kredit baru bisa ketahui risikonya lebih awal. Pada penelitian-penelitian terdahulu, model klasifikasi untuk risiko kredit menggunakan Random Forest banyak ditemukan namun tidak mendalam dalam penerapan preprocessing dan akurasinya masih rendah. Maka penelitian ini bertujuan meningkatkan akurasi model klasifikasi algoritma Random Forest dengan menerapkan tuning parameter dan feature engineering yang lebih dalam. Metodologi penelitian yang digunakan adalah Sample, Explore, Modify, Models, dan Assess (SEMMA). Penelitian ini menerapkan berbagai kombinasi parameter dan menerapkan feature engineering untuk memperbaiki kualitas data. Feature engineering yang digunakan meliputi oversampling dan standardisasi. Hyperparameter tuning model Random Forest menggunakan metode Random Search dan Grid Search untuk mencari parameter paling optimal. Dataset penelitian adalah data sekunder (Credit Risk) yang terdiri dari 32.581 baris, 11 variabel prediktor dan 1 variabel respon. Hasil penelitian menunjukkan penerapan feature engineering signifikan meningkatkan akurasi model Random Forest, meningkat dari 92,56% menjadi 97,94% setelah menerapkan oversampling dan standarisasi. Sedangkan hyperparameter tuning tidak begitu signifikan meningkatkan akurasi model yang dibangun menggunakan dataset yang sudah dikenakan preprocessing maupun feature engineering dengan baik.   Abstract Credit risk analysis is essential for minimizing the value of non-performing loans (NPL). Using historical data to understand credit risk patterns can help identify risks early in new credit applications. Previous research has often used Random Forest classification models for credit risk but found the need for more comprehensive preprocessing of applications and higher accuracy. This research aims to improve the accuracy of the Random Forest algorithm classification model by implementing parameter tuning and feature engineering. The SEMMA (Sample, Explore, Modify, Model, and Assess) methodology is used, which explores different parameters and feature engineering combinations to enhance data quality. Feature engineering techniques, such as oversampling and standardization, are applied. Hyperparameter tuning of the Random Forest model involves using Random Search and Grid Search methods to identify the optimal parameters. The research dataset, consisting of 32.581 lines, 11 predictor variables, and one response variable, is secondary data on Credit Risk. Results show that the application of feature engineering significantly improves the accuracy of the Random Forest model, increasing from 92,56% to 97,94% after applying oversampling and standardization. However, hyperparameter tuning does not significantly increase the accuracy of models built using well-preprocessed datasets or feature engineering.

Copyrights © 2025






Journal Info

Abbrev

JTIIK

Publisher

Subject

Computer Science & IT Engineering

Description

Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) merupakan jurnal nasional yang diterbitkan oleh Fakultas Ilmu Komputer (FILKOM), Universitas Brawijaya (UB), Malang sejak tahun 2014. JTIIK memuat artikel hasil-hasil penelitian di bidang Teknologi Informasi dan Ilmu Komputer. JTIIK berkomitmen ...