Penelitian autoscaling Kubernetes berbasis reinforcement learning saat ini kurang memiliki evaluasi statistik yang ketat, dengan sebagian besar hanya mengandalkan eksperimen skenario tunggal yang tidak dapat membedakan keunggulan algoritmik yang sebenarnya dari variasi acak. Kesenjangan metodologis ini melemahkan validitas dan reprodusibilitas peningkatan kinerja yang dilaporkan dalam literatur manajemen sumber daya cloud. Studi ini mengembangkan kerangka evaluasi berbasis simulasi yang kuat secara statistik untuk membandingkan secara ketat algoritma autoscaling reinforcement learning terhadap Horizontal Pod Autoscaler (HPA) Kubernetes standar, membangun metodologi benchmarking yang dapat direproduksi dengan pengujian signifikansi statistik yang tepat dan kuantifikasi ukuran efek. Sebuah simulator kejadian diskrit Python yang mengemulasi komponen control-plane Kubernetes (Metrics Server, Controller Manager, Scheduler) dengan dinamika siklus hidup pod yang realistis telah dikembangkan. Autoscaler Hybrid DQN-PPO dan HPA dievaluasi menggunakan desain eksperimen berpasangan di 30 skenario lalu lintas sintetis independen selama 24 jam. Analisis statistik menggunakan uji normalitas Shapiro-Wilk, koreksi Holm-Bonferroni untuk perbandingan berganda, ukuran efek Cohen’s d, dan interval kepercayaan bootstrap. Hasil mengungkapkan trade-off fundamental antara biaya dan kualitas: Hybrid DQN-PPO mencapai kualitas layanan superior dengan 60,58% lebih sedikit pelanggaran SLA, 19,61% lebih cepat latensi P95, dan 4,83% lebih cepat waktu respons rata-rata (semua p < 0, 001). Namun, peningkatan kualitas ini memerlukan premi biaya 8,92% ($6,87 per skenario) dibandingkan dengan HPA, yang mempertahankan utilisasi CPU 7,96% lebih tinggi melalui efisiensi sumber daya yang agresif (p < 0, 001). Perbedaan kinerja berasal dari strategi kontrol yang sangat berbeda: HPA menggunakan kontrol reaktif (menunggu pelanggaran sebelum scaling), mengoptimalkan biaya; Hybrid menggunakan kontrol prediktif (mencegah pelanggaran secara proaktif).