Penerjemahan dengan teknik Statistical Machine Translation (SMT) dapat dilakukan dengan mengolah data dari kumpulan kalimat sumber dan terjemahannya, yang disebut parallel corpus. Metode SMT mengeliminasi kebutuhan akan ahli linguistik karena terjemahan dilakukan oleh sistem berdasarkan statistik dari parallel corpus tersebut. Penggunaan teknik SMT ini telah dicoba dalam berbagai bahasa di dunia dengan hasil cukup baik pada sejumlah penelitian, sehingga aplikasinya pada bahasa Indonesia dan bahasa daerah (Karo) diharapkan dapat menghasilkan terjemahan yang baik pula. Sumber parallel corpus yang digunakan dalam penelitian ini adalah kumpulan kalimat dari sebagian kitab Injil berbahasa Indonesia dan kitab Injil berbahasa Karo berjumlah masing-masing sekitar 4000 baris dan 90.000 kata, dan sebagai pembanding digunakan kumpulan kalimat terjemahan dan kumpulan sinonim kata kedua bahasa tersebut yang berasal dari nara sumber berjumlah masing-masing sekitar 6000 baris dan 10.000 kata. Dengan corpus tersebut diperoleh skor hasil pengujian terjemahan dengan parameter fluency sebesar 1,9 dan 1,8 dari skala 5. Hasil pengujian ini, yang cukup baik jika skor lebih dari 3, menunjukkan bahwa perlu ditambahnya jumlah kalimat (dan kata) yang baik pada parallel corpus. Sistem penerjemah bahasa daerah ini dibangun berbasis web untuk pemasukan teks sumber dan menampilkan teks keluaran (terjemahan) dengan kemampuan dua arah, yang dapat dipublikasikan lewat internet untuk akses oleh publik.
Copyrights © 2012