Penelitian ini bertujuan mensintesis bukti ilmiah mengenai implementasi Artificial Intelligence (AI) dalam penilaian formatif dan kontribusinya terhadap peningkatan akurasi evaluasi pembelajaran. Metode yang digunakan adalah studi literatur dengan desain Systematic Literature Review (SLR) pada rentang publikasi 2015–2025. Proses seleksi mengikuti tahapan identifikasi, penyaringan, penilaian kelayakan, dan inklusi, dengan fokus pada studi yang membahas AI untuk penilaian formatif serta menyertakan bukti kualitas evaluasi seperti validitas, reliabilitas/konsistensi, agreement AI–penilai manusia, dan/atau kegunaan umpan balik. Sintesis kualitatif dilakukan terhadap 10 studi kunci yang merepresentasikan spektrum implementasi, termasuk automated writing evaluation/automated essay scoring, intelligent tutoring system, pendekatan deep learning, serta large language models untuk umpan balik dan penilaian. Hasil menunjukkan bahwa AI dapat meningkatkan akurasi evaluasi melalui: (1) penguatan validitas ketika output AI selaras dengan konstruk dan rubrik, (2) peningkatan konsistensi penilaian serta efisiensi pemberian umpan balik, dan (3) dukungan diagnosis kesalahan yang membantu tindakan perbaikan belajar. Namun, efektivitas AI sangat dipengaruhi moderator implementasi, terutama kejelasan rubrik, desain siklus revisi, kualitas dan representativitas data, literasi umpan balik siswa, serta peran guru dalam human-in-the-loop. Studi juga menyoroti risiko yang dapat menurunkan akurasi, seperti bias/fairness, rendahnya transparansi, overreliance, dan isu tata kelola data. Kesimpulannya, AI paling efektif meningkatkan akurasi evaluasi pembelajaran bila diterapkan sebagai pendukung asesmen formatif yang terintegrasi pedagogis dan dikendalikan melalui verifikasi guru serta standar evaluasi yang jelas.