Kecerdasan Buatan (Artificial Intelligence/AI) membuka peluang baru dalam berbagai bidang, salah satunya dalam bidang pendidikan. Penelitian ini melakukan evaluasi terhadap model LLaMA3.2 3B dalam menghasilkan soal untuk media pembelajaram, proses evaluasi menggunakan DeepEval yang merupakan kerangka kerja evaluasi LLM yang bersifat open-source. Proses evaluasi menggunakan dua metrik yaitu Answer Relevancy untuk mengukur tingkat kesesuaian hasil pertanyaan dengan materi yang diberikan, serta Halluciation untuk mengukur tingkat kesalahan terhadap output yang diinginkan. Hasil pengujian menunjukan bahwa LLaMA3.2 3B mempunyai performa yang lebih baik untuk menghasilkan soal dalam jumlah sedikit dengan rata – rata skor Answer Relevancy 0.813 untuk dataset 150 kata dan 0.776 untuk dataset 650 kata. Model ini juga memberikan skor Hallucination yang lebih baik pada dataset yang lebih sedikit yaitu hingga 0.05 untuk 150 kata, dan mendapatkan skor 0.33 untuk dataset 650 kata. Dengan hasil ini dapat disimpulkan bahwa model LLaMA 3.2 3B perlu dilakukan fine-tuning untuk meningkatkan kualitas soal yang dihasilkan.
Copyrights © 2025