Media sosial X (Twitter) merupakan sumber data penting untuk analisis opini publik, namun pembatasan akses API sejak 2023 menghambat pengumpulan data berskala besar secara berkelanjutan. Kondisi tersebut mendorong penggunaan web scraping sebagai alternatif. Penelitian ini bertujuan merancang dan mengevaluasi arsitektur data pipeline berbasis ETL (Extract, Transform, Load) yang terotomatisasi dan terjadwal, dengan studi kasus Program Makan Bergizi Gratis (MBG). Pipeline diorkestrasi menggunakan Prefect, melakukan ekstraksi data melalui Tweet Harvest berbasis kata kunci, transformasi melalui pembersihan dan standarisasi data, serta penyimpanan ke basis data relasional MySQL dengan dukungan monitoring dan notifikasi otomatis. Hasil menunjukkan pipeline berjalan stabil selama tujuh hari pengujian dengan total 8.662 data mentah dan 6.377 data hasil pembersihan. Uji kualitas data menghasilkan nilai precision sebesar 95,5%, menunjukkan relevansi tinggi terhadap topik penelitian. Uji performa menunjukkan penggunaan sumber daya rendah dengan rata-rata CPU 0,50% dan RAM 146,34 MB. Dengan demikian, arsitektur pipeline ETL otomatis berbasis Python efektif untuk pengumpulan data media sosial secara terstruktur, efisien, dan berkelanjutan sebagai alternatif keterbatasan akses API platform X.
Copyrights © 2026