Transformasi digital dalam pendidikan telah mempercepat integrasi (Artificial Intelligence/AI), khususnya pada sistem pembelajaran adaptif. Sistem konvensional sering kali gagal menyesuaikan materi dengan performa dan kecepatan belajar individu. Untuk mengatasi hal ini, penelitian ini mengimplementasikan Deep Reinforcement Learning (DRL) guna membangun model rekomendasi konten adaptif berdasarkan riwayat interaksi dan hasil belajar siswa. Dua model agen Deep Q-Network (DQN) dan Double DQN (DDQN) dikembangkan dan dievaluasi dalam lingkungan belajar simulatif menggunakan dataset EdNet-KT1, yang berisi data interaksi siswa dalam skala besar. Pelatihan dilakukan melalui formulasi Markov Decision Process (MDP), dengan vektor keadaan yang mencakup metadata soal, akurasi jawaban, dan waktu pengerjaan. Evaluasi model menggunakan tiga metrik utama: reward per episode, generalisasi terhadap pengguna baru (unseen users), dan akurasi prediksi. Hasil menunjukkan bahwa DDQN memiliki performa lebih unggul dibandingkan DQN dalam hal stabilitas, kemampuan generalisasi, dan akurasi. Rata-rata reward yang diperoleh DDQN melebihi 14 dalam sebagian besar skenario, dengan akurasi prediksi mencapai 78%, sedangkan DQN hanya mencapai 74%. Analisis kurva pembelajaran juga menunjukkan bahwa DDQN mengalami konvergensi lebih cepat dengan fluktuasi yang lebih rendah. Evaluasi model menggunakan tiga metrik utama: reward per episode, generalisasi terhadap pengguna baru (unseen users), dan akurasi prediksi. Hasil menunjukkan bahwa DDQN memiliki performa lebih unggul dibandingkan DQN dalam hal stabilitas, kemampuan generalisasi, dan akurasi. Rata-rata reward yang diperoleh DDQN melebihi 14 dalam sebagian besar skenario, dengan akurasi prediksi mencapai 78%, sedangkan DQN hanya mencapai 74%. Analisis kurva pembelajaran juga menunjukkan bahwa DDQN mengalami konvergensi lebih cepat dengan fluktuasi yang lebih rendah