Penelitian ini mengevaluasi pengaruh kualitas data terhadap performa model machine learning menggunakan pendekatan Data-Centric Artificial Intelligence (DCAI). Eksperimen dilakukan pada Titanic Dataset dengan membandingkan Random Forest dan Support Vector Machine (SVM) dalam tiga skenario penanganan missing values, yaitu Drop Missing, Mean Imputation, dan No Imputation. Kinerja model dievaluasi menggunakan metrik Accuracy, F1 Score, dan Area Under Curve (AUC). Hasil menunjukkan bahwa intervensi kualitas data memberikan dampak signifikan terhadap performa model. Random Forest mencapai performa terbaik pada skenario Drop Missing dengan Accuracy 0.813, F1-Score 0.758, dan AUC 0.859, sedangkan SVM memperoleh Accuracy tertinggi sebesar 0.822 pada skenario Mean Imputation. Uji statistik Paired t-Test menunjukkan tidak terdapat perbedaan performa yang signifikan secara statistik antara kedua model (p-value > 0.05). Temuan ini menegaskan bahwa peningkatan kualitas data lebih berpengaruh terhadap kinerja model dibandingkan pemilihan algoritma, sehingga mendukung paradigma Data-Centric AI.
Copyrights © 2026