Model transformator seperti LlaMA 2 sangat kuat untuk memproses berbagai tugas bahasa alami, namun memiliki kekuatan pemrosesan yang signifikan dan keterbatasan memori yang membuatnya sulit untuk diimplementasikan. Tantangan terbesarnya terletak pada konsumsi sumber daya penyimpanan yang besar dan kebutuhan daya komputasi dalam jumlah besar. Untuk mengatasi permasalahan tersebut, dikembangkan solusi berupa implementasi LoRA (Low Rank Adapter). LoRA, khususnya di LlaMA 2, menggunakan pendekatan adaptif dalam mengompresi model Transformer menggunakan adaptor berdaya rendah. Penerapan LoRA pada model ini mengurangi jumlah operasi floating-point, sehingga mempercepat proses pelatihan dan inferensi. Secara signifikan mengurangi konsumsi daya dan penggunaan memori. Tujuan utama penerapan LoRA di LlaMA 2 adalah untuk mengoptimalkan efisiensi model, dengan fokus pada pengurangan operasi floating-point dan meningkatkan penggunaan memori GPU.