Peringkasan teks otomatis berbahasa Indonesia masih menghadapi tantangan dalam menghasilkan ringkasan yang informatif namun tetap koheren secara semantik. Sebagian besar penelitian sebelumnya hanya menggunakan metode ekstraktif seperti TextRank atau metode abstraktif seperti mT5-small tanpa mengoptimalkan hubungan semantik antar kalimat. Terdapat masalah di antaranya metode ekstraktif cenderung kaku dan tidak mengubah susunan kata dalam kalimat, sedangkan metode abstraktif bisa menyebabkan risiko kesalahan fakta ataupun output yang kurang relevan jika teks terlalu panjang. Untuk mengatasi masalah tersebut tersebut, penelitian ini mengusulkan metode peringkasan teks hybrid yang menggabungkan Improved TextRank dengan mT5-small. Pada tahap awal, dilakukan praproses dan ekstraksi kalimat dengan representasi semantik berbasis embedding. Hasil ekstraksi dimasukkan sebagai input di model mT5-small untuk menghasilkan ringkasan secara abstractive melalui proses parafrasa dan penyusunan ulang kalimat. Penelitian dilakukan terhadap 1000 dokumen berita dataset IndoSum dengan metrik evaluasi ROUGE. Hasil evaluasi menunjukkan bahwa metode usulan mencapai nilai ROUGE sebesar 0.687, 0.451, dan 0.634, melampaui performa TextRank klasik 0.472, 0.307, 0.441 dan mT5-Small 0.553, 0.362, 0.508 untuk hasil evaluasi ROUGE 1, 2 dan L secara berturut-turut. Hasil ini membuktikan bahwa integrasi sentence embedding dan pendekatan hybrid efektif meningkatkan kualitas ringkasan dari segi relevansi semantik. Sehingga pendekatan ini berpotensi menjadi dasar pengembangan model peringkasan teks Bahasa Indonesia yang lebih robust dan semantik.
Copyrights © 2025