Abstract: Generating caption image automatically is one of the challenges in computer vision. This field can be very helpful in many ways, for example search engines. Currently there are many image classification algorithms that we can use to create a caption image model. In this article, we will compare performance between the Resnet50 and InceptionV3 models for text images. We will use 2000 (1800 train & 200 validation) image data and each image has 5 example captions to train the model. After the model is successfully created, we evaluate the model using 100 images and each image has 5 examples of additional captions that are not used in the training and validation process. The result of this research is that the InceptionV3 model is better than Resnet50. BLEU-1 is 0.53, BLEU-2 is 0.35, BLEU-3 is 0.18, BLEU-4 is 0.09, and METEOR is 0.35 for InceptionV3 model. While Resnet50 model has a value of BLEU-1 is 0.51, BLEU-2 is 0.31, BLEU-3 is 0.16, BLEU-4 is 0.06, and METEOR is 0.33. Keywords: caption image; inceptionv3; LSTM; resnet50 Abstrak: Membuat gambar teks secara otomatis adalah salah satu tantangan dalam computer vision. Bidang ini bisa sangat membantu dalam banyak hal, misalnya mesin pencari. Saat ini banyak sekali algoritma klasifikasi citra yang dapat kita gunakan untuk membuat model teks citra. Pada artikel ini, kami akan membandingkan performa antara model Resnet50 dan InceptionV3 untuk gambar teks. Kami akan menggunakan 2000 (1800 train & 200 validation) data gambar dan setiap gambar memiliki 5 contoh caption untuk melatih model. Setelah model berhasil dibuat, kami mengevaluasi model menggunakan 100 gambar dan setiap gambar memiliki 5 contoh caption tambahan yang tidak digunakan dalam proses training dan validation. Hasil dari penelitian ini adalah model InceptionV3 lebih baik dibandingkan dengan Resnet50. BLEU-1 0.53, BLEU-2 0.35, BLEU-3 0.18, BLEU-4 0.09, dan METEOR 0.35 untuk model InceptionV3. Sedangkan model Resnet50 memiliki nilai BLEU-1 0.51, BLEU-2 0.31, BLEU-3 0.16, BLEU-4 0.06, dan METEOR 0.33. Kata kunci: caption image; inceptionv3; LSTM; resnet50