Zumantara, Zidan Januri
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

PERBANDINGAN ALGORITMA RANDOM FOREST DAN LOGISTIC REGRESSION DALAM PREDIKSI PENYAKIT DIABETES Zumantara, Zidan Januri; Sudrajat, Budi; Asymar, Hasta Herlan
JEIS: Jurnal Elektro dan Informatika Swadharma Vol 6, No 1 (2026): JEIS EDISI JANUARI 2026 (ON PROGRESS)
Publisher : Institut Teknologi dan Bisnis Swadharma

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.56486/jeis.vol6no1.998

Abstract

This study aims to compare the performance of the Random Forest and Logistic Regression machine learning algorithms in predicting diabetes using the Pima Indians Diabetes dataset from Kaggle. The dataset contains data on 768 adult female patients with eight health indicators and a target outcome variable indicating diabetes status. This quantitative study uses a comparative approach. The research stages include initial data analysis, preprocessing (zero-value cleaning), splitting the data into 70% training and 30% test, model development, evaluation using accuracy, precision, recall, and F1-score metrics, and feature analysis. The results show that Random Forest achieved 75% accuracy and Logistic Regression 74%. Random Forest also slightly outperformed Logistic Regression in precision, recall, and F1-score. This study differs from previous research in that it not only focused on evaluation metrics but also analyzed the most influential features. The analysis results show that Glucose is the most dominant indicator in Random Forest, while DiabetesPedigreeFunction is the most influential in Logistic Regression. These findings provide additional insight into the key risk factors in diabetes prediction.Penelitian ini bertujuan membandingkan performa algoritma machine learning Random Forest dan Logistic Regression dalam memprediksi penyakit diabetes dengan menggunakan dataset Pima Indians Diabetes dari Kaggle. Dataset berisi 768 data pasien wanita dewasa dengan delapan indikator kesehatan serta variabel target Outcome yang menunjukkan status diabetes. Penelitian ini merupakan penelitian kuantitatif dengan pendekatan komparatif, tahapan penelitian meliputi analisis data awal, pra-pemrosesan berupa pembersihan nilai nol, pembagian data menjadi 70% training dan 30% testing, pembangunan model, evaluasi menggunakan metrik accuracy, precision, recall, dan F1-score, serta analisis fitur penting. Hasil menunjukkan bahwa Random Forest memperoleh akurasi 75% dan Logistic Regression 74%. Random Forest juga sedikit lebih unggul pada precision, recall, dan F1-score dibanding Logistic Regression. Perbedaan penelitian ini dengan penelitian terdahulu adalah tidak hanya berfokus pada metrik evaluasi, tetapi juga menambahkan analisis fitur paling berpengaruh. Hasil analisis menunjukkan bahwa Glucose merupakan indikator paling dominan pada Random Forest, sedangkan DiabetesPedigreeFunction paling berpengaruh pada Logistic Regression. Temuan ini memberikan pemahaman tambahan mengenai faktor risiko utama dalam prediksi penyakit diabetes.