Identifikasi jenis tanah berperan krusial dalam sektor pertanian. Namun, metode klasifikasi konvensional seperti uji laboratorium dan observasi langsung masih memiliki keterbatasan dalam hal efisiensi waktu, biaya, dan skala. Penelitian ini mengusulkan model efisien untuk klasifikasi citra tanah dengan arsitektur Mobile Vision Transformer. Pendekatan transfer learning digunakan dalam membangun model untuk mengatasi keterbatasan jumlah data latih yang selanjutnya disesuaikan dengan data jenis tanah melalui fine-tuning. Dataset yang digunakan dalam penelitian ini diperoleh dari platform Kaggle, yang terdiri dari enam kelas yaitu Arid Soil, Black Soil, Laterite Soil, Mountain Soil, Red Soil, dan Yellow Soil. Dataset dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian, dengan evaluasi kinerja berdasarkan akurasi, presisi, recall, F1-score, dan waktu inferensi. Eksperimen dilakukan dengan membandingkan performa MobileViT terhadap model konvensional seperti CNN ringan (MobileNet) dan Vision Transformer standar. Hasil penelitian menunjukkan bahwa model yang diusulkan mampu mencapai keseimbangan antara akurasi dan efisiensi komputasi, dengan tingkat akurasi sebesar 97%. MobileViT menunjukkan efisiensi waktu inferensi yang lebih baik dibandingkan Vision Transformer standar, dengan kecepatan sekitar 5 kali lebih cepat. Kecepatan inferensi MobileViT mendukung penerapannya pada aplikasi real-time berbasis perangkat dengan daya komputasi terbatas tanpa menurunkan akurasi dengan signifikan. Meskipun demikian, penelitian ini memiliki keterbatasan pada ukuran dataset yang terbatas.