Kualitas udara yang buruk di Jakarta berdampak signifikan terhadap kesehatan masyarakat dan lingkungan. Oleh karena itu, diperlukan metode prediksi untuk membantu pengambilan kebijakan mitigasi polusi udara. Penelitian ini memprediksi kategori indeks kualitas udara dengan metode Support Vector Machine (SVM) dan Random Forest menggunakan data polutan (PM10, PM2.5, SO₂, CO, O₃, NO₂) dari Kaggle tahun 2021, meliputi PM10, PM2.5, SO2, CO, O3, dan NO2. Analisis korelasi menunjukkan bahwa PM10 dan PM2.5 memiliki hubungan yang sangat kuat (r = 0.96), menandakan keterkaitan erat dalam menentukan tingkat polusi udara. SVM dan Random Forest disimulasikan dengan berbagai rasio pembagian data latih dan uji (10:90, 15:85, 20:80, 25:75, dan 30:70), serta menggunakan stratified k-fold cross-validation untuk meningkatkan validitas hasil dan mengurangi potensi overfitting. Hasil evaluasi menunjukkan bahwa kedua model memberikan performa yang sangat baik dengan akurasi lebih dari 97% pada seluruh skenario pembagian data. Random Forest mencapai akurasi maksimum 100% pada rasio 15:85, sementara SVM mencatatkan akurasi tertinggi 98,9% pada rasio 25:75. Hasil cross-validation menunjukkan bahwa Random Forest mencapai akurasi 100% pada simulasi menggunakan 5-folds, dengan nilai presisi, recall, dan F1-score yang juga 100%. Di sisi lain SVM menunjukkan akurasi sedikit lebih rendah yaitu 97,30% namun lebih konsisten dengan standar deviasi 2,50%.
Copyrights © 2025