Purpose: Our study aims to combine pre-processing methods to develop a training data model from the Indian diabetic Pima dataset so that it can improve the performance of machine learning in recognizing diabetesDesign/methodology/approach: This research was started through several stages such as collecting the Pima indian diabetes dataset, pre-processing including k-means clustering, oversampling using SMOTE, then undersampling the dataset whose cluster is a minority in each class. Furthermore, the dataset is classified using machine learning namely logistic regression through 10 cross validationFindings/result: The results of this classification performance show that the accuracy reaches 99.5% and is higher than the method in previous studies.Originality/value/state of the art:The method in this study uses SMOTE to handle data imbalances and k-means clustering to remove outliers by removing labels that do not match the majority cluster in each class so that clean data is produced and validation using logistic regression is more accurate than previous studies.Tujuan: Penelitian ini bertujuan untuk menerapkan metode pre-processing untuk membentuk model data latih dari dataset Pima Indian diabetes sehingga dapat meningkatkan performa mesin pembelajaran dalam mengenali diabetes.Perancangan/metode/pendekatan: Riset ini dimulai melalui beberapa tahap yakni pengumpulan dataset Pima Indian diabetes, pre-processing meliputi clustering, oversampling menggunakan SMOTE, kemudian undersampling pada dataset pada klasterĀ minoritas pada setiap kelas. Selanjutnya dataset diklasifikasikan menggunakan machine learning yakni metode regresi logistik melalui 10 cross validationHasil: Hasil dari performa klasifikasi ini menunjukkan akurasi mencapai 99,5% dan lebih tinggi daripada metode pada penelitian sebelumnya.Keaslian/ state of the art: Metode dalam penelitian ini menggunakan SMOTE untuk menangani ketidakseimbangan data dan k-means klastering untuk membuang outlier dengan cara menghapus label yang tidak sesuai dengan klaster mayoritas pada setiap kelas sehingga dihasilkan data yang bersih dan pada validasi menggunakan logistic regression lebih akurat daripada penelitian sebelumnya.
Copyrights © 2023