Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol 10 No 2 (2026): Februari 2026

Penyelarasan Large Language Model terhadap Respon Tidak Etis menggunakan Reinforcement Learning from Human Feedback (RLHF)

Hilmi, Fadhilah (Unknown)
Fatyanosa, Tirana Noor (Unknown)
Siagian, Al Hafiz Akbar Maulana (Unknown)



Article Info

Publish Date
29 Jan 2026

Abstract

LLM atau Large Language Model telah menunjukkan kemampuan luar biasa dalam berbagai tugas pemrosesan bahasa alami, namun masih menghadapi tantangan terkait aspek etika dan keamanan output yang dihasilkan. Supervised Fine-Tuning yang umum digunakan untuk mengatasi masalah ini memiliki keterbatasan dalam hal fleksibilitas dan kemampuan generalisasi terhadap konteks baru. Oleh karena itu penelitian ini bertujuan mengimplementasikan metode Reinforcement Learning from Human Feedback untuk meningkatkan keselarasan model bahasa besar berbahasa Indonesia dengan preferensi dan nilai-nilai manusia. Implementasi RLHF dilakukan melalui tiga tahap: Supervised Fine-Tuning (SFT), pelatihan Reward Model, dan optimasi kebijakan menggunakan Proximal Policy Optimization (PPO). Hasil evaluasi menunjukkan bahwa Reward Model mencapai Pairwise Accuracy 0,80 dan Kendall’s Tau 0,60 dengan kemampuan generalisasi yang baik tanpa mengalami overfitting. Model hasil pelatihan PPO mencapai nilai Harmlessness 0,75 dengan Refusal Rate 0%, mengindikasikan bahwa model tidak lagi memberikan penolakan eksplisit seperti pada penelitian sebelumnya. Respon penolakan tersebut diganti dengan respons yang informatif, kontekstual, dan mengarahkan pengguna pada alternatif yang etis dan aman. Visualisasi SHAP mengonfirmasi perubahan karakteristik respons dari penolakan eksplisit dengan token seperti "tidak dapat menjawab" menjadi arahan informatif dengan token seperti "alternatif" dan "platform legal". Perbandingan dengan model baseline menunjukkan bahwa model hasil RLHF mampu menghasilkan respons dengan nilai Reward yang lebih tinggi pada sebagian besar skenario evaluasi. Meskipun demikian, model masih menunjukkan kelemahan dalam beberapa kasus, khususnya dalam menolak permintaan terkait informasi pribadi yang sensitif. Secara keseluruhan, implementasi RLHF berhasil meningkatkan keselarasan model dengan nilai-nilai keamanan dan kebermanfaatan tanpa mengorbankan kualitas interaksi yang konstruktif.

Copyrights © 2026






Journal Info

Abbrev

j-ptiik

Publisher

Subject

Computer Science & IT Control & Systems Engineering Education Electrical & Electronics Engineering Engineering

Description

Jurnal Pengembangan Teknlogi Informasi dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya merupakan jurnal keilmuan dibidang komputer yang memuat tulisan ilmiah hasil dari penelitian mahasiswa-mahasiswa Fakultas Ilmu Komputer Universitas Brawijaya. Jurnal ini diharapkan dapat mengembangkan penelitian ...