Penandaan otomatis konten multimedia merupakan komponen penting dalam manajemen aset digital, rekomendasi konten, dan sistem pengambilan visual skala besar. Namun, kompleksitas konteks visual, variasi objek, dan karakteristik multi-label membuat tugas ini menantang untuk pendekatan konvensional. Studi ini mengusulkan kerangka kerja pembelajaran mendalam ujung ke ujung yang mengintegrasikan Vision Transformer (ViT) sebagai ekstraktor fitur utama dengan kepala klasifikasi multi-label adaptif, termasuk modul fusi multimoda opsional untuk memanfaatkan hubungan semantik antara gambar dan teks. Eksperimen dilakukan pada dataset skala besar seperti MS-COCO, NUS-WIDE, dan Open Images Dataset menggunakan strategi pelatihan termasuk augmentasi data, fine-tuning progresif, dan fungsi kehilangan adaptif. Model yang diusulkan mencapai peningkatan yang konsisten, mengungguli baseline CNN sebesar 4–6% dan arsitektur ViT murni sebesar 2–3%, dengan Presisi Rata-rata (mAP) rata-rata 0,78 dan skor F1 0,82. Integrasi multimoda semakin meningkatkan kinerja pada label abstrak seperti aktivitas, luar ruangan, dan acara. Temuan ini menunjukkan bahwa Vision Transformers, dikombinasikan dengan pembelajaran multimoda, secara signifikan meningkatkan akurasi dan kualitas semantik penandaan konten multimedia otomatis.
Copyrights © 2026