Data akademik di perguruan tinggi, seperti mahasiswa, dosen, mata kuliah, kelas, dan nilai, tersebar di berbagai sumber heterogen, sehingga menimbulkan tantangan besar pada integrasi, dan standar validitas data. Kondisi ini berpotensi menghambat pelaporan, akreditasi, maupun pengambilan keputusan strategis berbasis data. Penelitian ini bertujuan merancang dan mengimplementasikan pipeline Extract, Transform, Load (ETL) berbasis big data untuk mengatasi permasalahan tersebut. Metode penelitian meliputi studi pendahuluan, pengumpulan data, pemetaan rule validasi, dan implementasi pipeline menggunakan Apache NiFi serta Hadoop Distributed File System (HDFS). Hasil implementasi menunjukkan pipeline mampu mengekstrak data multi-sumber secara otomatis, menerapkan validasi berbasis aturan (length, nullable, reference, min-max), dan memuat data tervalidasi ke cluster HDFS dengan high availability dan fault tolerance. Uji coba menemukan sekitar 8% data error berhasil diisolasi, sementara tingkat validitas data pada entitas utama mencapai lebih dari 90%. Kontribusi penelitian ini terletak pada integrasi multi sumber data akademik, penerapan standar, mekanisme otomatis penanganan data invalid, serta pemanfaatan HDFS sebagai penyimpanan terdistribusi. Pipeline yang dihasilkan dapat menjadi blueprint praktis untuk perguruan tinggi di Indonesia dalam mengukur kualitas data dan mendukung tata kelola berbasis big data.
Copyrights © 2026