Bayesian Tuning terhadap Model Pre-Trained PEGASUS untuk Peringkas Teks Informatif Berbahasa Indonesia: Bayesian Tuning of a Pre-Trained PEGASUS Model for Indonesian Informative Text Summarization
Artha Darma Pradnyana, Kadek;
Trisna, I Nyoman Prayana Trisna;
Vihikan, Wayan Oger
Jurnal Buana Informatika Vol. 17 No. 1 (2026): Jurnal Buana Informatika, Volume 17, Nomor 1, April 2026
Publisher : Universitas Atma Jaya Yogyakarta
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.24002/jbi.v17i1.12915
Penelitian ini mengeksplorasi peringkasan teks abstraktif untuk berita berbahasa Indonesia dengan melakukan fine-tuning pada model PEGASUS menggunakan Bayesian Optimization dan input kontekstual yang diperkaya. Dataset berisi 286.277 pasangan dokumen–ringkasan yang diambil dari JPNN.com, lengkap dengan judul dan kata kunci yang digunakan untuk membentuk input informatif. Evaluasi menggunakan ROUGE dan BERTScore menunjukkan peningkatan substansial dari informative input: +16.75% (ROUGE-1), +27.25% (ROUGE-2), +18.58% (ROUGE-L & ROUGE-LSUM), dan +2.7% (BERTScore-F1) dibandingkan dengan input reguler. Analisis saliency menunjukkan bobot kalimat kontekstual yang konsisten tinggi. Penerapan hyperparameter tuning Bayesian melalui Optuna memberikan kenaikan marginal (+1.21% ROUGE-1, +2.1% ROUGE-2, +1.38% ROUGE-L & ROUGE-LSUM, +0.23% BERTScore) yang dipengaruhi oleh jumlah trial terbatas (12) dan ruang pencarian yang sempit. Temuan ini menegaskan efektivitas desain input kontekstual dan potensi hyperparameter tuning untuk peringkasan berbasis Transformer pada bahasa dengan sumber daya terbatas. This research explores abstractive text summarization of Indonesian news by fine-tuning the PEGASUS model using Bayesian optimization and enriched contextual inputs. The dataset contains 286,277 document-summary pairs scraped from JPNN.com, including titles and keyphrases used to construct informative input. Each section is marked with special tokens such as , , and . Evaluation using ROUGE and BERTScore shows that informative input substantially improves performance: +16.75% (ROUGE-1), +27.25% (ROUGE-2), +18.58% (ROUGE-L and ROUGE-Lsum), and +2.7% (BERTScore-F1) compared with regular input. Saliency analysis also shows consistently high sentence weights for contextual input components. Additionally, Bayesian hyperparameter tuning via Optuna yields marginal gains (+1.21% ROUGE-1, +2.1% ROUGE-2, +1.38% ROUGE-L & ROUGE-Lsum, +0.23% BERTScore) due to a limited number of trials (12) and a constrained hyperparameter search space. These findings demonstrate the effectiveness of contextual input design and the potential of Bayesian tuning to improve Transformer-based summarization for low-resource languages.