Perbedaan bahasa mencerminkan keberagaman budaya dan sejarah suatu negara. Memahami perbedaan ini memperkaya wawasan dan meningkatkan komunikasi global. Dalam rapat internasional, peserta yang tidak memahami bahasa asing sering mengalami kesulitan dalam berpartisipasi aktif, terutama di ruang tertutup, sehingga menghambat pencapaian tujuan diskusi. Penelitian ini mengembangkan sistem Speech to Text berbasis deep learning, menggunakan Mel-Frequency Cepstral Coefficients (MFCC) untuk menganalisis sinyal suara dan Convolutional Neural Network (CNN) untuk meningkatkan akurasi pengenalan serta koreksi ejaan. Raspberry Pi digunakan sebagai penghubung antara headset dan sistem, memungkinkan penerjemahan real-time. Sistem ini juga mengintegrasikan DeepL API sebagai mesin penerjemah dan Text to Speech untuk menghasilkan keluaran suara. Sebagai studi kasus, pengujian dilakukan di Politeknik Negeri Malang kelas internasional, dengan peserta yang terdiri dari mahasiswa dan pengajar yang memiliki latar belakang bahasa yang berbeda. Hasil pengujian menunjukkan metode CNN mencapai rata-rata akurasi 98%, membuktikan efektivitasnya dalam meningkatkan transkripsi dan penerjemahan otomatis. Sistem ini mampu mendukung komunikasi lintas bahasa secara efisien dan real-time, memfasilitasi pemahaman dalam diskusi multibahasa, dan meningkatkan interaksi di lingkungan akademis internasional. ABSTRACT Language differences reflect the cultural and historical diversity of a country. Understanding these differences enriches knowledge and enhances global communication. In international meetings, participants who do not understand foreign languages often face difficulties in actively participating, especially in closed settings, thus hindering the achievement of discussion goals. This research develops a Speech to Text system based on deep learning, using Mel-Frequency Cepstral Coefficients (MFCC) to analyze sound signals and Convolutional Neural Networks (CNN) to improve accuracy in recognition and spelling correction. A Raspberry Pi is used as a connector between the headset and the system, enabling real-time translation. The system also integrates the DeepL API as the translation engine and Text to Speech for generating audio output. As a case study, testing was conducted at Politeknik Negeri Malang's international class, with participants consisting of students and instructors from diverse language backgrounds. The test results showed that the CNN method achieved an average accuracy of 98%, demonstrating its effectiveness in improving transcription and automatic translation. This system effectively supports real-time, cross-language communication, facilitates understanding in multilingual discussions, and enhances interaction in the international academic environment.