LLM atau Large Language Model telah menunjukkan kemampuan luar biasa dalam berbagai tugas pemrosesan bahasa alami, namun masih menghadapi tantangan terkait aspek etika dan keamanan output yang dihasilkan. Supervised Fine-Tuning yang umum digunakan untuk mengatasi masalah ini memiliki keterbatasan dalam hal fleksibilitas dan kemampuan generalisasi terhadap konteks baru. Oleh karena itu penelitian ini bertujuan mengimplementasikan metode Reinforcement Learning from Human Feedback untuk meningkatkan keselarasan model bahasa besar berbahasa Indonesia dengan preferensi dan nilai-nilai manusia. Implementasi RLHF dilakukan melalui tiga tahap: Supervised Fine-Tuning (SFT), pelatihan Reward Model, dan optimasi kebijakan menggunakan Proximal Policy Optimization (PPO). Hasil evaluasi menunjukkan bahwa Reward Model mencapai Pairwise Accuracy 0,80 dan Kendall’s Tau 0,60 dengan kemampuan generalisasi yang baik tanpa mengalami overfitting. Model hasil pelatihan PPO mencapai nilai Harmlessness 0,75 dengan Refusal Rate 0%, mengindikasikan bahwa model tidak lagi memberikan penolakan eksplisit seperti pada penelitian sebelumnya. Respon penolakan tersebut diganti dengan respons yang informatif, kontekstual, dan mengarahkan pengguna pada alternatif yang etis dan aman. Visualisasi SHAP mengonfirmasi perubahan karakteristik respons dari penolakan eksplisit dengan token seperti "tidak dapat menjawab" menjadi arahan informatif dengan token seperti "alternatif" dan "platform legal". Perbandingan dengan model baseline menunjukkan bahwa model hasil RLHF mampu menghasilkan respons dengan nilai Reward yang lebih tinggi pada sebagian besar skenario evaluasi. Meskipun demikian, model masih menunjukkan kelemahan dalam beberapa kasus, khususnya dalam menolak permintaan terkait informasi pribadi yang sensitif. Secara keseluruhan, implementasi RLHF berhasil meningkatkan keselarasan model dengan nilai-nilai keamanan dan kebermanfaatan tanpa mengorbankan kualitas interaksi yang konstruktif.
Copyrights © 2026