Large Language Models (LLM) memerlukan metode tambahan untuk optimasi pada tugas spesifik seperti analisis sentimen. Penelitian ini membandingkan performa GPT-3.5 Turbo dan LLaMA-2 melalui penerapan metode Retrieval Augmented Few-shot (RAFS) pada domain pariwisata, dengan skenario Zero-shot sebagai baseline. Hasil eksperimen menunjukkan bahwa LLaMA-2 mengalami peningkatan performa yang jauh lebih signifikan dibandingkan GPT-3.5 Turbo setelah penerapan RAFS. Akurasi LLaMA-2 meningkat dari 0,833 menjadi 0,862, sementara GPT-3.5 Turbo hanya meningkat tipis dari 0,851 menjadi 0,856. Perbedaan substansial terlihat pada metrik kelas minoritas; f1-score GPT-3.5 hanya naik dari 0,555 ke 0,572, sedangkan LLaMA-2 melonjak drastis dari 0,462 ke 0,676 dengan kenaikan presisi dari 0,395 ke 0,844. Secara head-to-head, LLaMA-2 terbukti sedikit lebih unggul dibanding dengan GPT-3.5 Turbo dalam menghasilkan klasifikasi yang tepat dan seimbang. Meskipun GPT-3.5 memiliki baseline awal yang lebih tinggi, LLaMA-2 menunjukkan kemampuan adaptasi dan skalabilitas yang lebih baik terhadap augmentasi konteks. Temuan ini menegaskan bahwa model open-source dengan dukungan RAFS mampu menyamai, bahkan melampaui model proprieter dalam menangani kompleksitas sentimen ulasan pelanggan.
Copyrights © 2026