Distribusi modalitas pencitraan medis dalam dataset Imaging Data Commons (IDC) yang berskala petabyte belum pernah dianalisis secara sistematis menggunakan pendekatan data mining, padahal ketimpangan distribusinya berpotensi memengaruhi kualitas pengembangan model kecerdasan buatan di bidang onkologi. Penelitian ini bertujuan mengelompokkan modalitas pencitraan medis berdasarkan karakteristik distribusi data menggunakan algoritma K-Means Clustering yang diakses melalui Google BigQuery. Data diproses melalui tahapan preprocessing meliputi pembersihan, penyaringan noise, dan normalisasi MinMaxScaler. Nilai K optimal ditentukan melalui Elbow Method menghasilkan K=3. Hasil clustering membentuk tiga kelompok: Cluster 2 (CT, 62,22%), Cluster 1 (MR, 32,41%), dan Cluster 0 (20 modalitas minor, 5,37%), dengan Silhouette Score 0,7823 yang termasuk kategori cluster kuat. Penelitian ini mengungkap bahwa hubungan antara cakupan body part dan volume data bersifat eksponensial, serta dominasi CT dan MRI berpotensi menciptakan blind spot pada model AI medis apabila ketimpangan distribusi tidak ditangani sebelum pelatihan model.
Copyrights © 2026