Garuda - Garba Rujukan Digital

Article Per Year (5 Year)

p-Index From 2020 - 2025

0.408

P-Index

This Author published in this journals

All Journal Telematika : Jurnal Informatika dan Teknologi Informasi OPSI

Akbar, Ahmad Taufiq

Unknown Affiliation

Author-ID : 1640124

Electrical & Electronics Engineering Industrial & Manufacturing Engineering

Published : 2 Documents Claim Missing Document

Claim Missing Document

Articles

Title

Preprocessing Using SMOTE and K-Means for Classification by Logistic Regression on Pima Indian Diabetes Dataset Akbar, Ahmad Taufiq; Husaini, Rochmat; Prapcoyo, Hari
Telematika Vol 20 No 2 (2023): Edisi Juni 2023
Publisher : Jurusan Informatika

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.31315/telematika.v20i2.9676

Purpose: Our study aims to combine pre-processing methods to develop a training data model from the Indian diabetic Pima dataset so that it can improve the performance of machine learning in recognizing diabetesDesign/methodology/approach: This research was started through several stages such as collecting the Pima indian diabetes dataset, pre-processing including k-means clustering, oversampling using SMOTE, then undersampling the dataset whose cluster is a minority in each class. Furthermore, the dataset is classified using machine learning namely logistic regression through 10 cross validationFindings/result: The results of this classification performance show that the accuracy reaches 99.5% and is higher than the method in previous studies.Originality/value/state of the art:The method in this study uses SMOTE to handle data imbalances and k-means clustering to remove outliers by removing labels that do not match the majority cluster in each class so that clean data is produced and validation using logistic regression is more accurate than previous studies.Tujuan: Penelitian ini bertujuan untuk menerapkan metode pre-processing untuk membentuk model data latih dari dataset Pima Indian diabetes sehingga dapat meningkatkan performa mesin pembelajaran dalam mengenali diabetes.Perancangan/metode/pendekatan: Riset ini dimulai melalui beberapa tahap yakni pengumpulan dataset Pima Indian diabetes, pre-processing meliputi clustering, oversampling menggunakan SMOTE, kemudian undersampling pada dataset pada klaster minoritas pada setiap kelas. Selanjutnya dataset diklasifikasikan menggunakan machine learning yakni metode regresi logistik melalui 10 cross validationHasil: Hasil dari performa klasifikasi ini menunjukkan akurasi mencapai 99,5% dan lebih tinggi daripada metode pada penelitian sebelumnya.Keaslian/ state of the art: Metode dalam penelitian ini menggunakan SMOTE untuk menangani ketidakseimbangan data dan k-means klastering untuk membuang outlier dengan cara menghapus label yang tidak sesuai dengan klaster mayoritas pada setiap kelas sehingga dihasilkan data yang bersih dan pada validasi menggunakan logistic regression lebih akurat daripada penelitian sebelumnya.

Co-Authors Berty Dwi Rahmawati Husaini, Rochmat Prapcoyo, Hari Rysnalendra, Alya Pangesti Yuli Dwi Astanti

Title Search

Found 1 Documents Search Journal : Telematika : Jurnal Informatika dan Teknologi Informasi

Abstract

Title

Found 1 Documents
Search
Journal : Telematika : Jurnal Informatika dan Teknologi Informasi