High blood glucose levels characterize a chronic disease called diabetes. Patients with diabetes will eventually experience health problems. These cases show that early detection and better diagnosis are needed. Although several Machine Learning (ML) models have been widely used in diabetes diagnosis, the algorithm performance is still between 70 - 79%. This study evaluates the use of Ensemble Machine Learning to predict diabetes using the Pima Indian Diabetes dataset. The models compared are Support Vector Machine, Linear Regression, Naive Bayes, Random Forest, AdaBoost, K Nearest Neighbour, and Decision Tree. The dataset will also be balanced using the Synthetic Minority Over-sampling Technique (SMOTE) to reduce accuracy bias. Cross-Industry Standard Process For Data Mining (CRISP-DM) is the methodology used. The accuracy results show that Random Forest with Bagging and Hard-Voting produces the best accuracy of other models. Where Random Forest produces an accuracy of 81.16% and Hard-Voting also produces an accuracy of 81.16%.Penyakit kronis yang disebut diabetes ditandai dengan kadar glukosa darah yang tinggi. Pasien dengan diabetes pada akhirnya akan mengalami masalah kesehatan. Kasus-kasus ini menunjukkan bahwa deteksi dini dan diagnosis yang lebih baik diperlukan. Meskipun beberapa model Machine Learning (ML) telah banyak digunakan dalam diagnosis diabetes, kinerja algoritmanya masih antara 70 - 79%. Untuk memutuskan apakah seseorang menderita diabetes atau tidak, penelitian ini mengevaluasi penggunaan Ensemble Machine Learning untuk memprediksi diabetes menggunakan dataset Diabetes Pima Indian. Model yang dibandingkan adalah Support Vector Machine, Linear Regression, Naive Bayes, Random Forest, Adaboost, K Nearest Neighbor, dan Decision Tree. Untuk mengurangi bias akurasi, dataset juga akan diseimbangkan menggunakan Synthetic Minority Over-sampling Technique (SMOTE). Cross-Industry Standard Process For Data Mining (CRISP-DM) adalah metodologi yang digunakan. Hasil akurasi menunjukkan bahwa Random Forest dengan Bagging dan Hard-Voting menghasilkan akurasi terbaik dari model lainnya. Dimana Random Forest menghasilkan akurasi sebesar 81,16% dan Hard-Voting juga menghasilkan akurasi sebesar 81,16%.
Copyrights © 2025