International Research on Big-data and Computer Technology (IRobot)
Vol 10, No 1 (2026): April (in Progress)

Penerapan K-Means Clustering Untuk Pengelompokan Modalitas Pencitraan Medis Pada Dataset Imaging Data Commons

Dea Anggraini (Universitas Negeri Medan)
Angelina S. Saragih (Universitas Negeri Medan)
Bicanro Gebriyan Panjaitan (Universitas Negeri Medan)



Article Info

Publish Date
19 May 2026

Abstract

Distribusi modalitas pencitraan medis dalam dataset Imaging Data Commons (IDC) yang berskala petabyte belum pernah dianalisis secara sistematis menggunakan pendekatan data mining, padahal ketimpangan distribusinya berpotensi memengaruhi kualitas pengembangan model kecerdasan buatan di bidang onkologi. Penelitian ini bertujuan mengelompokkan modalitas pencitraan medis berdasarkan karakteristik distribusi data menggunakan algoritma K-Means Clustering yang diakses melalui Google BigQuery. Data diproses melalui tahapan preprocessing meliputi pembersihan, penyaringan noise, dan normalisasi MinMaxScaler. Nilai K optimal ditentukan melalui Elbow Method menghasilkan K=3. Hasil clustering membentuk tiga kelompok: Cluster 2 (CT, 62,22%), Cluster 1 (MR, 32,41%), dan Cluster 0 (20 modalitas minor, 5,37%), dengan Silhouette Score 0,7823 yang termasuk kategori cluster kuat. Penelitian ini mengungkap bahwa hubungan antara cakupan body part dan volume data bersifat eksponensial, serta dominasi CT dan MRI berpotensi menciptakan blind spot pada model AI medis apabila ketimpangan distribusi tidak ditangani sebelum pelatihan model.

Copyrights © 2026






Journal Info

Abbrev

ir

Publisher

Subject

Computer Science & IT

Description

Jurnal Ini Berfokus pada bidang kelimuan komputer di antaranya: 1. Artificial Intelligence 2. Networking Computer 3. Database Systems 4. Multimedia 5. Information Systems 6. System ...