Klasifikasi tingkat pemrosesan makanan merupakan langkah krusial dalam mitigasi risiko kesehatan global akibat konsumsi makanan ultra-proses. Meskipun label komposisi tersedia pada kemasan, penulisan yang kecil, tidak terstruktur, typo serta terminologi kimia yang kompleks memiliki kecenderungan menyulitkan penilaian manual oleh konsumen. Pemanfaatan Large Language Models (LLM) menawarkan potensi efisiensi deteksi otomatis, namun mengandalkan satu arsitektur model tunggal memiliki risiko tinggi akibat variabilitas performa. Penelitian ini bertujuan untuk mengevaluasi efektivitas strategi Weighted Ensemble Learning dibandingkan model tunggal dalam memprediksi skor pemrosesan makanan (FPro) pada dataset GroceryDB. Eksperimen dilakukan menggunakan lima arsitektur LLM dengan skala parameter kecil hingga sedang (Gemma-3-4B, Llama-3.2-3B, Qwen3-4B, R1-Distill-1.5B, dan Phi-2) melalui pendekatan Weighted Voting berbasis kinerja historis. Hasil evaluasi menunjukkan adanya disparitas ekstrem pada kinerja model tunggal, di mana model berkapasitas rendah (Phi-2) mengalami kegagalan penalaran dengan F1-score hanya 10%, sementara model dengan kemampuan instruksi tinggi (Gemma) mencapai 68%. Penerapan strategi Ensemble berhasil memitigasi kelemahan model individual melalui mekanisme koreksi silang, meningkatkan akurasi F1-score menjadi 70% dan menghasilkan prediksi yang lebih stabil serta robust dibandingkan jika hanya mengandalkan satu model terbaik sekalipun.