Setiap proses pembelajaran memerlukan suatu evaluasi   berupa tes. Dalam perkembangannya tes dapat dilakukan secara online. Jenis   tes antara lain tes benar salah, test pilihan ganda, tes mencocokan, dan tes   esai. Sudah banyak penelitian di luar negeri maupun di dalam negeri yang   mengembangkan metode-metode sebagai penilai jawaban esai otomatis. Sebagai   contoh Eksperimen LSA untuk esai GMAT (Graduation Management Achievement   Test) menghasilkan persetujuan dengan manusia sebesar 85%-91% (Valenti, Neri,   & Cucchiarelli, 2003), Electronic Essay Rater (E-Rater) menghasilkan   87%-94% (Valenti, Neri, & Cucchiarelli, 2003), untuk penelitian di dalam   negeri hasil uji coba SIMPLE (Ratna, Budiharjo, & Hartanto, 2007)   menghasilkan 69.80%-94.64% untuk lima mahasiswa dan 77.18%-98.42% untuk   sepuluh mahasiswa. Hasil yang didapatkan masih jauh dari yang diharapkan. Hal ini yang   mendasari dilakukannya penelitian mengenai pembobotan yang baik dalam   penilaian jawaban esai otomatis. Penelitian ini membandingkan Algoritma   pembobotan TF/IDF dan BLEU dengan alat bantu Automatic Essay Scoring yang berbasis web untuk   membobotkan jawaban siswa terhadap kunci jawaban esai serta meneliti pengaruh   perluasan kunci jawaban serta penyisipan huruf pada kata kurang huruf   (toleransi) untuk memaksimalkan hasil penilaian. Algoritma TF-IDF merupakan   salah satu skema pembobotan istilah/term dalam pencarian dokumen yang terdiri   pembobotan lokal Frequency Term (TF), pembobotan global Inverse Document   Frequency (IDF), dan normalisasi. Sedangkan Algoritma BLEU merupakan salah   satu sistem evaluasi otomatis yang dikenalkan oleh grup riset IBM. Dalam   penelitian ini penulis menghitung nilai BLEU sampai 4-gram (4 kata) saja, sedangkan esai   yang dinilai dibatasi pada esai yang merupakan jawaban dari pertanyaan pada   tes esai (maksimal 250 kata per jawaban), bukan esai karangan yang panjang   (lebih dari 250 kata) dan jawaban yang dinikai berupa kalimat bukan berupa   jawaban hasil perhitungan (matematika, fisika dan kimia). Uji coba dilakukan   dengan 10 soal esai dengan 22 peserta ujian. Secara keseluruhan, rata-rata   korelasi TF/IDF-penilaian guru mencapai 0.70 dengan nilai korelasi tertinggi   mencapai 0.98, sedangkan rata-rata korelasi BLEU-penilaian gurur mencapai   0.63 dengan nilai korelasi tertinggi mencapai 0.97. secara keseluruhan nilai   yang dihasilkan algoritma TF/IDF lebih tinggi dari BLEU.   Every learning process requires an evaluation of a   test. In the development of the test can be done online. Types of tests   include tests completely false, multiple choice tests, matching tests, and   essay tests. There have been many studies abroad and within the country are   developing methods as assessor automated essay answers. For example   Experimental LSA for GMAT essay (Graduation Management Achievement Test)   results in agreement with the human by 85% -91% (Valenti, Neri, &   Cucchiarelli, 2003), the Electronic Essay Rater (E-Rater) resulted in 87%   -94% (Valenti , Neri, & Cucchiarelli, 2003), for research on domestic   trial results SIMPLE (Ratna, Budiharjo, & Hartanto, 2007) resulted in   69.80% -94.64% for the five students and 77.18% -98.42% for ten students. The   results obtained are still far from the expected. It is for conducting   research on a good weighting in the assessment of automated essay answers.   This study compared the weighting algorithm TF / IDF and BLEU with Automatic   Essay Scoring tools are web-based to membobotkan answers to the answer key   student essay and examines the impact of the expansion of the answer key and   the insertion of letters in the word less letters (tolerance) to maximize the   results of the assessment. Algorithm TF-IDF weighting scheme is one term /   terms in the search for documents consisting of local weighting Term Frequency   (TF), Inverse Document Frequency weighting globally (IDF), and normalization.   While the algorithm is one of the BLEU automatic evaluation system introduced   by IBM research group. In this study the authors calculate the value to   4-gram BLEU (4 words) only, while the assessed essay essay is limited to the   answers of the questions on the test essay (maximum of 250 words per answer),   not an essay written by a long (more than 250 words ) and answer dinikai not   be the answer in the form of sentence calculation results (mathematics,   physics and chemistry). The test is done with 10 essays by 22 examinees.   Overall, the average correlation of TF / IDF-teacher ratings reached 0.70   with the highest correlation value reaches 0.98, while the average   correlation of BLEU-assessment gurur reached 0.63 with the highest   correlation value reaches 0.97. overall value of the resulting algorithm TF /   IDF higher than BLEU.