Dissolved oxygen (DO) is a critical water quality parameter in intensive aquaculture systems because its fluctuations directly affect farmed fish. Accurate prediction of DO is challenging due to complex, often nonlinear interactions among physicochemical and biological variables. Despite increasing interest in machine learning applications, comparative evaluations between traditional linear models and ensemble-based approaches in aquaculture contexts remain limited. This study aimed to analyse key variables associated with DO dynamics, compare the predictive performance of linear regression (LR) and random forest (RF) models, and identify dominant predictors relevant to aquaculture management. A publicly available aquaculture water quality dataset from Mendeley Data was analysed. Data were preprocessed by outlier removal and normalization, then split into training (70%) and test (30%) sets, and model robustness was assessed using 5-fold cross-validation. Dissolved oxygen concentrations ranged from 0.21 to 10.17 mg L⁻¹ (mean = 5.19 mg L⁻¹). Pearson correlation analysis showed positive associations between DO and ammonia (r = 0.60), biochemical oxygen demand (r = 0.55), and nitrite (r = 0.52), and negative associations with hydrogen sulphide (r = −0.55) and turbidity (r = −0.53). These relationships reflected indirect, management-mediated effects rather than direct causation. The RF model slightly outperformed LR (R² = 0.515 vs. 0.470), demonstrating the advantage of non-linear modelling. The feature importance analysis identified ammonia, hydrogen sulphide, nitrite, and biochemical oxygen demand as the dominant predictors. Although predictive accuracy remained moderate, the results highlight key drivers of DO variability and support the use of machine learning as a decision-support tool for smart aquaculture management. Oksigen terlarut (dissolved oxygen = DO) merupakan parameter kualitas air yang sangat penting dalam sistem akuakultur intensif karena fluktuasinya secara langsung memengaruhi komoditas yang dibudidayakan. Prediksi DO yang akurat menjadi tantangan karena adanya interaksi yang kompleks dan sering kali bersifat nonlinier antara variabel fisikokimia dan biologis. Meskipun minat terhadap penerapan machine learning terus meningkat, evaluasi komparatif antara model linier tradisional dan pendekatan berbasis ensemble dalam konteks akuakultur masih terbatas. Penelitian ini bertujuan untuk menganalisis variabel-variabel utama yang berkaitan dengan dinamika DO, membandingkan kinerja prediktif model regresi linier (LR) dan random forest (RF), serta mengidentifikasi prediktor dominan yang relevan untuk pengelolaan akuakultur. Dataset kualitas air akuakultur yang tersedia secara publik dari Mendeley Data dianalisis dalam penelitian ini. Data dipraproses melalui penghapusan pencilan dan normalisasi, kemudian dibagi menjadi data training (70%) dan pengujian (30%), dengan ketahanan model dievaluasi menggunakan validasi silang lima lipatan. Konsentrasi DO berkisar antara 0,21 hingga 10,17 mg L⁻¹ (rata-rata = 5,19 mg L⁻¹). Analisis korelasi Pearson menunjukkan hubungan positif antara DO dan amonia (r = 0,60), kebutuhan oksigen biokimiawi (BOD; r = 0,55), serta nitrit (r = 0,52), dan hubungan negatif dengan hidrogen sulfida (r = −0,55) dan kekeruhan (r = −0,53). Hubungan tersebut mencerminkan efek tidak langsung yang dimediasi oleh praktik pengelolaan, bukan hubungan kausal langsung. Model RF menunjukkan kinerja yang sedikit lebih baik dibanding LR (R² = 0,515 vs. 0,470), yang menegaskan keunggulan pemodelan nonlinier. Analisis kepentingan fitur mengidentifikasi amonia, hidrogen sulfida, nitrit, dan kebutuhan oksigen biokimiawi sebagai prediktor dominan. Meskipun akurasi prediksi masih tergolong moderat, hasil penelitian ini menyoroti faktor-faktor utama yang memengaruhi variabilitas DO dan mendukung penerapan machine learning sebagai alat pendukung keputusan dalam pengelolaan akuakultur cerdas.
Copyrights © 2025