Taufik Edy Sutanto
Department of Mathematics, Faculty of Science and Technology, UIN Syarif Hidayatullah Jakarta, Tangerang Selatan, Banten, Indonesia

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Scalability and Cost Efficiency Analysis of Distributed Logistic Regression on Low-Power Clusters Using Apache Spark Arjuananta Malik; Taufik Edy Sutanto; Muhaza Liebenlito; Mohamad Irvan Septiar Musti
InPrime: Indonesian Journal of Pure and Applied Mathematics Vol. 8 No. 1 (2026)
Publisher : Department of Mathematics, Faculty of Sciences and Technology, UIN Syarif Hidayatullah

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.15408/eqqpcz81

Abstract

The limited availability of large-scale computing infrastructure, combined with the high acquisition, operational, and energy costs of conventional GPU-based servers, remains a significant challenge for AI model training and big data learning in resource-constrained educational and research environments. To address this issue, this study proposes and evaluates a horizontally scalable low-power cluster architecture based on Apache Spark for distributed logistic regression training. The novelty of this research lies in the integrated evaluation of scalability performance and computational cost efficiency of Single Board Computer (SBC)-based clusters under varying data complexity scenarios. Experiments were conducted using binary and multiclass datasets by varying the number of observations, feature dimensionality through feature hashing, and the number of classes, with cluster configurations ranging from one to four nodes. Performance was assessed using training time, speedup, parallel efficiency, and electricity cost metrics. Results show that increasing dataset size and feature dimensionality substantially increases computational workload; however, horizontal scaling effectively reduces training time, particularly for high-dimensional and multiclass datasets. The best scalability performance was achieved on the multiclass dataset, where training time decreased by up to 46.98% when scaling from one to four nodes. Although parallel efficiency declined due to communication and synchronization overhead, the system maintained low energy consumption and operational cost. These findings demonstrate that low-power distributed clusters provide a scalable and cost-efficient alternative infrastructure for AI and big data learning in institutions with limited computational resources.   Abstrak Keterbatasan ketersediaan infrastruktur komputasi skala besar, yang disertai dengan tingginya biaya pengadaan, operasional, dan konsumsi energi dari server berbasis GPU konvensional, masih menjadi tantangan utama dalam pelatihan model kecerdasan buatan (AI) dan pembelajaran big data pada lingkungan pendidikan dan penelitian yang memiliki sumber daya terbatas. Untuk mengatasi permasalahan tersebut, penelitian ini mengusulkan dan mengevaluasi arsitektur klaster berdaya rendah yang dapat diskalakan secara horizontal berbasis Apache Spark untuk pelatihan regresi logistik terdistribusi. Kebaruan penelitian ini terletak pada evaluasi terpadu terhadap kinerja skalabilitas dan efisiensi biaya komputasi pada klaster berbasis Single Board Computer (SBC) di bawah berbagai skenario kompleksitas data. Eksperimen dilakukan menggunakan dataset biner dan multikelas dengan memvariasikan jumlah observasi, dimensi fitur melalui teknik feature hashing, serta jumlah kelas, pada konfigurasi klaster yang terdiri dari satu hingga empat node. Kinerja sistem dievaluasi berdasarkan waktu pelatihan, speedup, efisiensi paralel, dan biaya listrik. Hasil penelitian menunjukkan bahwa peningkatan ukuran dataset dan dimensi fitur secara signifikan meningkatkan beban komputasi. Namun, penskalaan horizontal mampu mengurangi waktu pelatihan secara efektif, terutama pada dataset berdimensi tinggi dan multikelas. Kinerja skalabilitas terbaik diperoleh pada dataset multikelas, dengan penurunan waktu pelatihan hingga 46,98% ketika jumlah node ditingkatkan dari satu menjadi empat. Meskipun efisiensi paralel menurun akibat overhead komunikasi dan sinkronisasi, sistem tetap mempertahankan konsumsi energi serta biaya operasional yang rendah. Temuan ini menunjukkan bahwa klaster terdistribusi berdaya rendah merupakan alternatif infrastruktur yang skalabel dan hemat biaya untuk pembelajaran AI dan big data pada institusi dengan sumber daya komputasi yang terbatas. Kata Kunci: Regresi Logistik Terdistribusi; Efisiensi; Skalabilitas horizontal. 2020MSC: 68T09, 68W10.