Dokumen yang berisi infomasi mengenai berita atau sastra seringkali disimpan dalam bentuk citra. Informasi yang dimuat citra dokumen seperti kategori atau kata kunci dapat diambil dengan cara membaca isi citra dokumen secara manual. Namun cara ini menghabiskan waktu dan tidak efisien, terutama saat citra dokumen diperiksa dalam jumlah besar. Masalah ini dapat diatasi dengan cara merancang sistem yang dapat mengklasifikasikan citra dokumen berdasarkan konten yang dimuat. Suatu sistem pengklasifikasi citra dokumen berdasarkan konten telah dirancang pada penelitian ini. Sistem yang dirancang menggunakan term frequency-inverse document frequency sebagai ekstraksi ciri dan support vector machine sebagai pengklasifikasi. Ciri dari citra dokumen akan diambil dengan mengolah konten hasil dari optical character recognition menggunakan term frequency-inverse document frequency. Kategori dari citra dokumen didapatkan dengan mengolah ciri tersebut menggunakan metode support vector machine. Hasil yang diperoleh dari sistem ini berupa kategori yang sesuai untuk citra dokumen yang diuji berdasarkan konten yang dimuat pada citra. Parameter terbaik untuk pengklasifikasi support vector machine hasil dari validasi silang grid search adalah kernel radial basis function dengan  dan  dengan akurasi 99,6%. Sistem mampu mengklasifikasikan citra dokumen dengan ukuran data yang bervariasi dengan rata-rata akurasi 95,4%.
Copyrights © 2017