Garuda - Garba Rujukan Digital

p-Index From 2021 - 2026

1.532

P-Index

This Author published in this journals

All Journal Jupiter Aisyah Journal of Informatics and Electrical Engineering Jurnal Teknik Informatika (JUTIF) Jurnal Algoritma Jurnal Pengabdian Masyarakat Bangsa Jurnal Pendidikan Teknologi Informasi (J-Diteksi) Jurnal Rekayasa Perangkat Lunak

Ikna Awaliyani

Pendidikan Teknologi Informasi, Universitas Aisyah Pringsewu, Indonesia

Author-ID : 8862792

Agriculture, Biological Sciences & Forestry Arts Humanities Civil Engineering, Building, Construction & Architecture Computer Science & IT Control & Systems Engineering Decision Sciences, Operations Research & Management Economics, Econometrics & Finance Education Electrical & Electronics Engineering Energy Engineering Health Professions Industrial & Manufacturing Engineering Law, Crime, Criminology & Criminal Justice Library & Information Science Mathematics Medicine & Pharmacology Nursing Physics Public Health Social Sciences

Published : 9 Documents Claim Missing Document

Claim Missing Document

Articles

Title

Deep Learning Framework for Automatic Tagging of Multimedia Content Awaliyani, Ikna; Aminudin, Nur; Septasari, Dita; Kurnia, Ulfa Isni
JUPITER (Jurnal Penelitian Ilmu dan Teknologi Komputer) Vol 18 No 1 (2026): Jurnal Penelitian Ilmu dan Teknologi Komputer (JUPITER)
Publisher : Teknik Komputer Politeknik Negeri Sriwijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.5281/zenodo.18168720

Penandaan otomatis konten multimedia merupakan komponen penting dalam manajemen aset digital, rekomendasi konten, dan sistem pengambilan visual skala besar. Namun, kompleksitas konteks visual, variasi objek, dan karakteristik multi-label membuat tugas ini menantang untuk pendekatan konvensional. Studi ini mengusulkan kerangka kerja pembelajaran mendalam ujung ke ujung yang mengintegrasikan Vision Transformer (ViT) sebagai ekstraktor fitur utama dengan kepala klasifikasi multi-label adaptif, termasuk modul fusi multimoda opsional untuk memanfaatkan hubungan semantik antara gambar dan teks. Eksperimen dilakukan pada dataset skala besar seperti MS-COCO, NUS-WIDE, dan Open Images Dataset menggunakan strategi pelatihan termasuk augmentasi data, fine-tuning progresif, dan fungsi kehilangan adaptif. Model yang diusulkan mencapai peningkatan yang konsisten, mengungguli baseline CNN sebesar 4–6% dan arsitektur ViT murni sebesar 2–3%, dengan Presisi Rata-rata (mAP) rata-rata 0,78 dan skor F1 0,82. Integrasi multimoda semakin meningkatkan kinerja pada label abstrak seperti aktivitas, luar ruangan, dan acara. Temuan ini menunjukkan bahwa Vision Transformers, dikombinasikan dengan pembelajaran multimoda, secara signifikan meningkatkan akurasi dan kualitas semantik penandaan konten multimedia otomatis.

Co-Authors Abdul Aziz, RZ Agus Wantoro Andini, Dwi Yana Ayu Aviv Fitria Yulia Dita Septasari Dwi Feriyanto Mukaromah, Hafsah Nur Aminudin Nurul Hidayat nurwahid, rizky12 Ulfa Isni Kurnia Wahyu Caesarendra Yudha Pratama, Rendy

Title Search

Found 1 Documents Search Journal : jupiter

Abstract

Title

Found 1 Documents
Search
Journal : jupiter