Jurnal Informatika Teknologi dan Sains (Jinteks)
Vol 7 No 1 (2025): EDISI 23

EVALUASI LLAMA3.2 3B UNTUK MENGHASILKAN SOAL OTOMATIS DENGAN DEEPEVAL BERDASARKAN METRIK ANSWER RELEVANCY DAN HALLUCINATION

Dharmawan, Thoriq (Unknown)
Witanti, Arita (Unknown)



Article Info

Publish Date
10 Feb 2025

Abstract

Kecerdasan Buatan (Artificial Intelligence/AI) membuka peluang baru dalam berbagai bidang, salah satunya dalam bidang pendidikan. Penelitian ini melakukan evaluasi terhadap model LLaMA3.2 3B dalam menghasilkan soal untuk media pembelajaram, proses evaluasi menggunakan DeepEval yang merupakan kerangka kerja evaluasi LLM yang bersifat open-source. Proses evaluasi menggunakan dua metrik yaitu Answer Relevancy untuk mengukur tingkat kesesuaian hasil pertanyaan dengan materi yang diberikan, serta Halluciation untuk mengukur tingkat kesalahan terhadap output yang diinginkan. Hasil pengujian menunjukan bahwa LLaMA3.2 3B mempunyai performa yang lebih baik untuk menghasilkan soal dalam jumlah sedikit dengan rata – rata skor Answer Relevancy 0.813 untuk dataset 150 kata dan 0.776 untuk dataset 650 kata. Model ini juga memberikan skor Hallucination yang lebih baik pada dataset yang lebih sedikit yaitu hingga 0.05 untuk 150 kata, dan mendapatkan skor 0.33 untuk dataset 650 kata. Dengan hasil ini dapat disimpulkan bahwa model LLaMA 3.2 3B perlu dilakukan fine-tuning untuk meningkatkan kualitas soal yang dihasilkan.

Copyrights © 2025






Journal Info

Abbrev

JINTEKS

Publisher

Subject

Computer Science & IT Control & Systems Engineering

Description

Jurnal Informatika Teknologi dan Sains (JINTEKS) merupakan media publikasi yang dikelola oleh Program Studi Informatika, Fakultas Teknik dengan ruang lingkup publikasi terkait dengan tema tema riset sesuai dengan bidang keilmuan Informatika yang meliputi Algoritm, Software Enginering, Network & ...