Claim Missing Document
Check
Articles

Found 1 Documents
Search
Journal : Jupiter

Deep Learning Framework for Automatic Tagging of Multimedia Content Awaliyani, Ikna; Aminudin, Nur; Septasari, Dita; Kurnia, Ulfa Isni
JUPITER (Jurnal Penelitian Ilmu dan Teknologi Komputer) Vol 18 No 1 (2026): Jurnal Penelitian Ilmu dan Teknologi Komputer (JUPITER)
Publisher : Teknik Komputer Politeknik Negeri Sriwijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.5281/zenodo.18168720

Abstract

Penandaan otomatis konten multimedia merupakan komponen penting dalam manajemen aset digital, rekomendasi konten, dan sistem pengambilan visual skala besar. Namun, kompleksitas konteks visual, variasi objek, dan karakteristik multi-label membuat tugas ini menantang untuk pendekatan konvensional. Studi ini mengusulkan kerangka kerja pembelajaran mendalam ujung ke ujung yang mengintegrasikan Vision Transformer (ViT) sebagai ekstraktor fitur utama dengan kepala klasifikasi multi-label adaptif, termasuk modul fusi multimoda opsional untuk memanfaatkan hubungan semantik antara gambar dan teks. Eksperimen dilakukan pada dataset skala besar seperti MS-COCO, NUS-WIDE, dan Open Images Dataset menggunakan strategi pelatihan termasuk augmentasi data, fine-tuning progresif, dan fungsi kehilangan adaptif. Model yang diusulkan mencapai peningkatan yang konsisten, mengungguli baseline CNN sebesar 4–6% dan arsitektur ViT murni sebesar 2–3%, dengan Presisi Rata-rata (mAP) rata-rata 0,78 dan skor F1 0,82. Integrasi multimoda semakin meningkatkan kinerja pada label abstrak seperti aktivitas, luar ruangan, dan acara. Temuan ini menunjukkan bahwa Vision Transformers, dikombinasikan dengan pembelajaran multimoda, secara signifikan meningkatkan akurasi dan kualitas semantik penandaan konten multimedia otomatis.