Widhi Yahya
University of Brawijaya and National Central University

Published : 11 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 11 Documents
Search

Analisis Perbandingan Metode Autoscaling Vertikal dan Horizontal Kubernetes untuk Aplikasi Inferensi Real-Time Streaming Nurdewanto, Abimanyu Danu; Yahya, Widhi; Basuki, Achmad
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol 9 No 8 (2025): Agustus 2025
Publisher : Fakultas Ilmu Komputer (FILKOM), Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Peningkatan adopsi kecerdasan buatan (AI) menimbulkan tantangan signifikan pada aplikasi inferensi dengan karakter beban kerja real-time streaming. Fluktuasi beban kerja yang intens, ditambah dengan sifat inferensi model yang compute-intensive, menciptakan risiko overload yang dapat menurunkan kualitas layanan, padahal waktu respons rendah adalah suatu keharusan. Skalabilitas menjadi krusial untuk mempertahankan kualitas layanan saat fluktuasi beban kerja. Kubernetes menawarkan solusi melalui HorizontalPodAutoscaler (HPA) yang mengubah jumlah replika pod, dan VerticalPodAutoscaler (VPA) yang menyesuaikan alokasi sumber daya pod. Meskipun begitu, keunggulan dan kelemahan masing-masing saat diterapkan pada aplikasi inferensi real-time streaming masih belum banyak dianalisis. Penelitian ini bertujuan menganalisis perbandingan kinerja VPA dan HPA dengan model You Only Look Once (YOLO) sebagai representasi aplikasi inferensi real-time streaming. Penskalaan dipicu oleh metrik penggunaan CPU, dan kedua metode dievaluasi dari aspek waktu respons penskalaan serta dampaknya terhadap kualitas layanan—waktu respons dan kegagalan request. Hasil menunjukkan HPA lebih responsif dalam bereaksi terhadap perubahan beban dibandingkan VPA. Dalam hal kualitas layanan, HPA juga berhasil menangani seluruh permintaan tanpa adanya kegagalan dengan tetap menjaga rata-rata waktu respons yang lebih rendah pada beban puncak. Mekanisme pembuatan ulang pod pada VPA menyebabkan tingkat kegagalan request yang sangat tinggi dan memicu lonjakan waktu respons maksimum ekstrem akibat warming-up ulang model lebih lama.