Diabetic Retinopathy (DR) merupakan salah satu komplikasi serius akibat diabetes melitus yang dapat menyebabkan kebutaan jika tidak dideteksi dan ditangani secara dini. Deteksi otomatis berbasis citra fundus retina telah menjadi fokus utama dalam penelitian deep learning. Namun, fitur-fitur kecil seperti mikroaneurisma dan lesi halus seringkali sulit dikenali, terutama pada citra dengan kualitas rendah. Penelitian ini mengusulkan modifikasi arsitektur EfficientNetV2 dengan menambahkan dilation layer guna meningkatkan kemampuan model dalam menangkap fitur kontekstual dengan cakupan spasial yang lebih luas tanpa menambah kompleksitas secara signifikan. Dilated convolution memungkinkan perluasan receptive field tanpa mengurangi resolusi spasial, sehingga lebih efektif dalam mendeteksi fitur-fitur kritis pada DR. Pengujian dilakukan menggunakan dataset APTOS 2019 Blindness Detection yang menyediakan citra fundus retina beranotasi untuk lima tingkat keparahan DR. Model dilatih menggunakan optimizer Adam dengan learning rate sebesar 0,001 untuk mencapai konvergensi yang optimal. Evaluasi dilakukan terhadap beberapa varian EfficientNetV2, yaitu B0, B1, B2, B3, dan S. Hasil eksperimen menunjukkan bahwa model EfficientNetV2-B0 dan B1 memberikan akurasi terbaik, masing-masing sebesar 97,14%. Di antara keduanya, EfficientNetV2-B0 menghasilkan nilai presisi dan f1-score yang lebih tinggi. Temuan ini menunjukkan bahwa integrasi dilation layer pada arsitektur EfficientNetV2 berpotensi meningkatkan performa sistem klasifikasi DR otomatis secara signifikan dibandingkan model baseline tanpa modifikasi. Abstract Diabetic Retinopathy (DR) is a serious complication of diabetes mellitus that can lead to blindness if not detected and treated early. Automated detection based on retinal fundus images has become a primary focus in deep learning research. However, small features such as microaneurysms and subtle lesions are often difficult to identify, particularly in low-quality images. This study proposes a modification to the EfficientNetV2 architecture by incorporating dilation layers to enhance the model’s ability to capture contextual features over a broader spatial range without significantly increasing complexity. Dilated convolutions allow the expansion of the receptive field without reducing spatial resolution, making them more effective in detecting critical features associated with DR. The evaluation was conducted using the APTOS 2019 Blindness Detection dataset, which provides annotated retinal fundus images across five levels of DR severity. The model was trained using the Adam optimizer with a learning rate of 0.001 to achieve optimal convergence. The study assessed several variants of EfficientNetV2 - B0, B1, B2, B3, and S. Experimental results indicate that the EfficientNetV2-B0 and B1 models achieved the highest accuracy, each reaching 97.14%. Among these, EfficientNetV2-B0 yielded higher precision and F1-score values. These findings suggest that integrating dilation layers into the EfficientNetV2 architecture can significantly enhance the performance of automated DR classification systems compared to the unmodified baseline models.
Copyrights © 2025