Dharmawan, Thoriq
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

EVALUASI LLAMA3.2 3B UNTUK MENGHASILKAN SOAL OTOMATIS DENGAN DEEPEVAL BERDASARKAN METRIK ANSWER RELEVANCY DAN HALLUCINATION Dharmawan, Thoriq; Witanti, Arita
Jurnal Informatika Teknologi dan Sains (Jinteks) Vol 7 No 1 (2025): EDISI 23
Publisher : Program Studi Informatika Universitas Teknologi Sumbawa

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.51401/jinteks.v7i1.5423

Abstract

Kecerdasan Buatan (Artificial Intelligence/AI) membuka peluang baru dalam berbagai bidang, salah satunya dalam bidang pendidikan. Penelitian ini melakukan evaluasi terhadap model LLaMA3.2 3B dalam menghasilkan soal untuk media pembelajaram, proses evaluasi menggunakan DeepEval yang merupakan kerangka kerja evaluasi LLM yang bersifat open-source. Proses evaluasi menggunakan dua metrik yaitu Answer Relevancy untuk mengukur tingkat kesesuaian hasil pertanyaan dengan materi yang diberikan, serta Halluciation untuk mengukur tingkat kesalahan terhadap output yang diinginkan. Hasil pengujian menunjukan bahwa LLaMA3.2 3B mempunyai performa yang lebih baik untuk menghasilkan soal dalam jumlah sedikit dengan rata – rata skor Answer Relevancy 0.813 untuk dataset 150 kata dan 0.776 untuk dataset 650 kata. Model ini juga memberikan skor Hallucination yang lebih baik pada dataset yang lebih sedikit yaitu hingga 0.05 untuk 150 kata, dan mendapatkan skor 0.33 untuk dataset 650 kata. Dengan hasil ini dapat disimpulkan bahwa model LLaMA 3.2 3B perlu dilakukan fine-tuning untuk meningkatkan kualitas soal yang dihasilkan.