Abstract: Accurate bone age estimation is essential for monitoring pediatric growth, diagnosing endocrine disorders, and supporting clinical decision-making. Although deep learning has improved prediction accuracy, limited studies have systematically examined how increasing model depth affects performance and reliability. This study evaluates the effectiveness of progressively deeper convolutional neural networks, specifically EfficientNet variants B0 to B5, for bone age estimation from hand radiographs. Experiments were conducted using 12,611 hand X-ray images from the RSNA Pediatric Bone Age Challenge dataset on Kaggle. To ensure fair comparison, all models were trained using a unified and consistent training pipeline. Model performance was evaluated using Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), Concordance Correlation Coefficient (CCC), and Pearson correlation coefficient. The results show a consistent improvement in prediction accuracy as model depth increases. Among the evaluated models, EfficientNet-B5 achieved the best performance, with an MAE of 21.5 months, MAPE of 6.23%, CCC of 0.9148, and Pearson’s r of 0.9203. These findings confirm that model scaling plays a critical role in enhancing prediction robustness and clinical reliability. Future work should emphasize external validation across diverse populations and incorporate interpretability techniques, such as Grad-CAM, to improve clinical transparency and trust. Keywords: bone age prediction; deep learning; model evaluation; clinical validation Abstrak: Estimasi usia tulang yang akurat sangat penting untuk memantau pertumbuhan anak, mendiagnosis gangguan endokrin, dan mendukung pengambilan keputusan klinis. Meskipun pembelajaran mendalam telah meningkatkan akurasi prediksi, studi yang secara sistematis meneliti bagaimana peningkatan kedalaman model memengaruhi kinerja dan keandalan masih terbatas. Studi ini mengevaluasi efektivitas jaringan saraf konvolusional yang semakin dalam, khususnya varian EfficientNet B0 hingga B5, untuk estimasi usia tulang dari radiografi tangan. Eksperimen dilakukan menggunakan 12.611 gambar sinar-X tangan dari dataset RSNA Pediatric Bone Age Challenge di Kaggle. Untuk memastikan perbandingan yang adil, semua model dilatih menggunakan alur pelatihan yang terpadu dan konsisten. Kinerja model dievaluasi menggunakan Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), Concordance Correlation Coefficient (CCC), dan koefisien korelasi Pearson. Hasil menunjukkan peningkatan yang konsisten dalam akurasi prediksi seiring dengan peningkatan kedalaman model. Di antara model yang dievaluasi, EfficientNet-B5 mencapai kinerja terbaik, dengan MAE sebesar 21,5 bulan, MAPE sebesar 6,23%, CCC sebesar 0,9148, dan Pearson’s r sebesar 0,9203. Temuan ini menegaskan bahwa penskalaan model memainkan peran penting dalam meningkatkan optimasi prediksi dan keandalan klinis. Penelitian selanjutnya dapat menekankan validasi eksternal di berbagai populasi dan menggabungkan teknik interpretasi, seperti Grad-CAM, untuk meningkatkan transparansi dan kepercayaan klinis. Kata kunci: prediksi usia tulang; deep learning; evaluasi model; validasi klinis