Penyakit jantung merupakan salah satu penyebab kematian tertinggi secara global, sehingga diperlukan metode prediksi yang akurat dan dapat dipercaya untuk mendukung deteksi dini. Penelitian ini bertujuan untuk menganalisis kinerja beberapa algoritma Machine Learning—Logistic Regression, Random Forest, Support Vector Machine (SVM) dengan kernel RBF, dan XGBoost—dalam memprediksi penyakit jantung menggunakan dataset Cleveland yang tersedia di platform Kaggle. Penelitian ini menggunakan pipeline preprocessing terintegrasi yang mencakup pembersihan data, transformasi data, reduksi data, serta pengujian dengan dua skenario: tanpa SMOTE dan dengan SMOTE untuk menangani ke kinerja kelas. Hasil penelitian menunjukkan bahwa Random Forest memberikan performa terbaik pada skenario tanpa SMOTE dengan akurasi 0.9016, recall 0.9643, F1-score 0.9000, dan ROC-AUC 0.9594. Sementara itu, penerapan SMOTE tidak secara signifikan meningkatkan akurasi, namun mampu menstabilkan recall dan F1-score pada beberapa algoritma, terutama Logistic Regression dan SVM. Secara keseluruhan, hasil eksperimen menegaskan bahwa kualitas preprocessing dan penanganan ke konsistensi kelas memiliki pengaruh utama terhadap kinerja model. Studi ini memberikan kontribusi pada penerapan praktik terbaik dalam pengembangan model prediksi penyakit jantung berbasis Machine Learning yang dapat direplikasi pada penelitian lanjutan maupun implementasi klinis. Kata kunci: Machine Learning, Prediksi Penyakit Jantung, Preprocessing Data, SMOTE, Random Forest, Regresi Logistik, SVM, XGBoost.
Copyrights © 2023