Claim Missing Document
Check
Articles

Found 1 Documents
Search

Optimasi Query RDF Melalui Transformasi Kolumnar Parquet Menggunakan Apache Spark Astria Febrian Anggraini; Nadya Rudie Sucipto; Master Edison Siregar
Jurnal Informatika Polinema Vol. 12 No. 3 (2026): Vol. 12 No. 3 (2026)
Publisher : UPT P2M State Polytechnic of Malang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.33795/jip.v12i3.9666

Abstract

Perkembangan teknologi Semantic Web mendorong peningkatan signifikan dalam produksi metadata terstruktur yang direpresentasikan menggunakan Resource Description Framework (RDF). Seiring dengan pertumbuhan volume data RDF yang semakin besar, proses querying terhadap dataset RDF dalam format teks seperti N-Triples menghadapi berbagai kendala performa, terutama akibat mekanisme full table scan pada pemrosesan query, terutama saat query bersifat selektif. Kondisi ini menyebabkan peningkatan beban Input/Output (I/O), latensi eksekusi yang tinggi, serta pemanfaatan sumber daya komputasi yang kurang optimal. Meskipun berbagai pendekatan optimasi RDF telah dikembangkan, sebagian besar penelitian masih terfokus pada level algoritma query dan sistem triple store khusus, sehingga belum banyak mengeksplorasi pendekatan optimasi berbasis format penyimpanan kolumnar pada platform distributed computing modern seperti Apache Spark. Oleh karena itu, penelitian ini mengusulkan Proof of Concept (PoC) transformasi RDF ke format Parquet dengan partitioning berbasis predikat menggunakan Apache Spark untuk meningkatkan efisiensi query RDF. Metode yang digunakan adalah pendekatan eksperimental kuantitatif dengan membandingkan performa query pada dataset RDF sebelum dan sesudah penerapan optimasi. Dataset yang digunakan berasal dari DBpedia Mapping-Based Objects yang tersedia melalui DBpedia Databus dalam format N-Triples dan terdiri dari jutaan triple RDF yang merepresentasikan relasi antar entitas pada knowledge graph DBpedia. Proses optimasi dilakukan dengan mentransformasikan dataset ke format kolumnar Parquet serta menerapkan partitioning berbasis predikat pada platform Apache Spark. Evaluasi dilakukan melalui enam skenario query berbasis predikat tunggal, yaitu team, careerStation, birthPlace, subdivision, country, dan starring. Hasil pengujian mengonfirmasi bahwa secara arsitektural, pendekatan yang diusulkan mampu menghindari full table scan melalui mekanisme partition pruning, menghasilkan rata-rata peningkatan performa waktu eksekusi sebesar 99.87% pada skala data uji. Waktu eksekusi juga turun drastis dari rentang 224–234 detik menjadi sekitar 0.18–0.58 detik. Temuan awal ini membuktikan bahwa kombinasi format kolumnar dan partitioning memiliki potensi fundamental yang efektif. Penelitian ini meletakkan dasar eksperimental yang valid, yang ke depannya perlu dievaluasi lebih lanjut pada dataset berskala masif dan skenario query multi-join yang lebih kompleks untuk menguji batas skalabilitasnya.