Penyakit jantung masih menjadi penyebab kematian utama di dunia sehingga deteksi dini berbasis data medis menjadi sangat penting. Penelitian ini menerapkan kerangka CRISP-DM untuk membangun klasifikasi penyakit jantung dengan pendekatan sistematis yang menekankan optimalisasi preprocessing data. Algoritma k-Nearest Neighbor (KNN) digunakan sebagai model dasar, dengan empat skema preprocessing yang dibandingkan: baseline dengan encoding, penambahan normalisasi, integrasi seleksi fitur berbasis Information Gain, serta kombinasi normalisasi, SMOTE dan seleksi fitur. Proses evaluasi dilakukan menggunakan 10 fold cross validation dengan metrik akurasi, presisi, recall, F1-score dan AUC. Hasil eksperimen menunjukkan bahwa skema keempat memberikan performa terbaik dengan akurasi 81,26 persen dan AUC 0,8460, melampaui skema lainnya. Fakta ini menegaskan bahwa strategi preprocessing yang tepat berkontribusi signifikan terhadap peningkatan performa model. Implikasi penelitian ini adalah perlunya menempatkan preprocessing sebagai bagian integral dari kerangka CRISP-DM, bukan sekadar langkah tambahan, serta membuka peluang penelitian lanjutan untuk mengeksplorasi variasi teknik preprocessing yang lebih adaptif. Pada tataran implementasi nyata, kombinasi preprocessing terbaik dengan algoritma yang lebih kuat dapat dipertimbangkan guna menghasilkan sistem prediksi penyakit jantung yang akurat dan andal.