Garuda - Garba Rujukan Digital

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer

Vol 9 No 2 (2025): Februari 2025

Rahardiansyah, Tengku Muhammad Rafi (Unknown)
Rizal Setya Perdana (Unknown)
Tirana Noor Fatyanosa (Unknown)

Publish Date
10 Jan 2025

Large Language Models (LLMs) berbasis Retrieval-Augmented Generation (RAG) menghadirkan tantangan dalam menghasilkan embedding yang akurat untuk meningkatkan performa retrieval dan generasi teks. NV-Embed adalah model embedding baru yang dirancang untuk mengatasi keterbatasan model embedding sebelumnya dengan pendekatan latent attention dan pelatihan contrastive instruction-tuning. Penelitian ini dilakukan dengan melakukan implementasi NV-Embed menggunakan bantuan PyTorch. Dokumen PDF diolah melalui tahap pre-processing, tokenization dan vectorization. Dokumen PDF yang telah diolah dan disimpan didalam vector database akan digunakan sebagai referensi untuk memperkaya hasil response berdasarkan informasi yang tersedia pada LLM dan informasi dari dokumen PDF yang didapatkan melalui RAG pipeline. Teknik embedding NV-Embed dievaluasi menggunakan metrik precision, recall, F1-score untuk retrieval, serta BLEU dan ROUGE untuk generasi teks. Hasil pengujian menunjukkan bahwa NV-Embed unggul dalam tugas retrieval dengan tingkat precision sebesar 0.906, recall sebesar 0.994, dan f1-score sebesar 0.948. Pada tugas generasi teks, NV-Embed mencapai hasil BLEU sebesar 0.899 dan metrik ROUGE juga menunjukkan hasil yang sangat baik, dengan ROUGE-1 sebesar 0.955, ROUGE-2 sebesar 0.951, dan ROUGE-L sebesar 0.955. Analisis terhadap performa NV-Embed menunjukkan bahwa pendekatan latent attention meningkatkan kualitas embedding dalam menangkap hubungan semantik antar kata. Penelitian ini memberikan kontribusi penting terhadap pengembangan model embedding dalam LLMs berbasis RAG dan membuka peluang untuk penelitian lebih lanjut.

Citation Download

EndNote, Reference Manager, ProCite

Latex, Jabref

Check in Google Scholar

Journal Info

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer

Website

Abbrev

j-ptiik

Publisher

Universitas Brawijaya

Subject

Computer Science & IT Control & Systems Engineering Education Electrical & Electronics Engineering Engineering

Description

Jurnal Pengembangan Teknlogi Informasi dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya merupakan jurnal keilmuan dibidang komputer yang memuat tulisan ilmiah hasil dari penelitian mahasiswa-mahasiswa Fakultas Ilmu Komputer Universitas Brawijaya. Jurnal ini diharapkan dapat mengembangkan penelitian ...

Article Info

Abstract

Analisis Teknik Embedding Model NV-Embed pada Large Language Models Berbasis Retrieval Augmented Generation

Article Info

Abstract