Mobilitas penduduk di DKI Jakarta semakin kompleks seiring meningkatnya urbanisasi, menuntut efisiensi sistem transportasi publik seperti Transjakarta. Pemanfaatan big data menjadi solusi strategis untuk memahami pola perjalanan penumpang dan mendukung perencanaan layanan berbasis data. Penelitian ini bertujuan merancang pipeline data Transjakarta end-to-end yang terotomatisasi, scalable, dan siap digunakan untuk analisis spasial-temporal. Metode penelitian yang digunakan adalah pendekatan kuantitatif eksploratif dengan memanfaatkan dua dataset sekunder, yaitu data transaksi penumpang (tap-in/tap-out) dan data koordinat halte, yang diolah menggunakan bahasa pemrograman Python. Pipeline dikembangkan melalui enam tahapan utama: collect, ingest, clean, integrate, analyze, dan visualize. Hasil penelitian menunjukkan bahwa pipeline mampu meningkatkan efisiensi proses ETL, menghasilkan data bersih yang siap analisis, serta memungkinkan visualisasi pola perjalanan dan jam sibuk secara otomatis. Kelebihan sistem terletak pada fleksibilitas dan kemudahan replikasi, sementara keterbatasannya adalah belum mendukung pemrosesan real-time. Secara keseluruhan, penelitian ini berkontribusi terhadap pengembangan sistem pengolahan data transportasi publik berbasis big data yang dapat mendukung pengambilan keputusan operasional secara lebih cerdas dan adaptif.