Siswo Utomo, Mardi
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

Meningkatkan Dataset CodeXGLUE dengan Representasi Abstract Syntax Tree (AST) Ter Seragam untuk Analisis Kode Lintas Bahasa Siswo Utomo, Mardi; Utami, Ema; Kusrini, Kusrini; Setyanto, Arief
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 12 No 5: Oktober 2025
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2025125

Abstract

Dataset kode sumber populer seperti CodeXGLUE belum menyediakan representasi sintaksis yang diseragamkan untuk penelitian lintas bahasa pemrograman. Hal ini akan menyulitkan saat dilakukan penelitian yang berkaitan dengan analisis syntax-aware. Penelitian ini menyediakan representasi sintaksis yang diseragamkan untuk memperkaya dataset CodeXGLUE.  Kami menghadirkan dataset CodeXGLUE-AST (Abstract Syntax Tree) seragam untuk enam bahasa pemrograman: Go, Java, JavaScript, Python, Ruby, dan PHP. AST diekstraksi menggunakan Tree-sitter dan disimpan dalam format JSON terstruktur. Untuk menjaga konsistensi antar bahasa, kemudian dilakukan klasifikasi dan pemetaan tipe node guna menyatukan representasi struktur AST. Evaluasi dataset menggunakan analisis kelengkapan struktur AST, pengukuran akurasi rekonstruksi kode menggunakan skor BLEU, serta pengujian ekstraksi Data Flow Graph (DFG) untuk menjaga ketergantungan antar variabel. Selain itu juga dilakukan pengujian pada tugas peringkasan kode menggunakan model CodeT5 yang menunjukkan peningkatan nilai BLEU, METEOR, ROUGE dan ROUGE-L hampir disemua percobaan saat menggunakan AST yang diseragamkan. Dengan representasi AST yang telah diseragamkan, diharapkan pengembangan model ML multi bahasa yang lebih andal dan sadar sintaksis untuk tugas-tugas seperti klasifikasi kode, pembuatan ringkasan kode, dan rekonstruksi program akan menjadi lebih berkembang.   Abstract Popular source code datasets like CodeXGLUE have not yet provided a standardized syntactic representation for cross-programming language research. This data gap will complicate research related to syntax-aware analysis. This research provides a standardized syntactic representation to enrich the CodeXGLUE dataset. We present a uniform CodeXGLUE-AST (Abstract Syntax Tree) dataset for six programming languages: Go, Java, JavaScript, Python, Ruby, and PHP. The AST is extracted using Tree-sitter and stored in a structured JSON format. To maintain consistency across languages, classification and mapping of node types were then performed to unify the AST structure representation. The dataset evaluation used AST structure completeness analysis, code reconstruction accuracy measurement using BLEU scores, and Data Flow Graph (DFG) extraction testing to maintain variable dependencies. Additionally, testing was conducted on the code summarization task using the CodeT5 model, which showed an increase in BLEU, METEOR, ROUGE, and ROUGE-L scores in almost all experiments when using the standardized AST. With the standardized AST representation, it is hoped that the development of more reliable and syntax-aware multilingual ML models for tasks such as code classification, code summarization, and program reconstruction will become more advanced.