Ekstraksi ciri merupakan sebuah proses untuk mendapatkan fitur-fitur yang terkandung dalam dokumen untuk proses text minning. Fitur-fitur yang dimiliki berfungsi untuk membedakan satu pola dengan pola yang lain. Metode ekstraksi fitur yang digunakan pada penelitian ini adalah metode TF-IDF. Metode TF-IDF (Term Frequency Inverse Document Frequency) adalah metode yang umum digunakan dalam proses kategorisasi teks. TF-IDF memiliki dua buah komponen. Komponen pertama adalah term-frequency dan komponen kedua adalah inverse document frequency. Setelah proses ekstraksi fitur kemudian dilakukan perhitungan kemiripan dokumen yang didasari dari fitur-fitur yang telah diekstraksi dari sejumlah dokumen-dokumen yang akan diperiksa kemiripannya. Ada banyak metode yang dipakai untuk menghitung kemiripan dokumen seperti euclidean distance dan cosine-similarity. Metode yang dipilih dalam program adalah euclidean distance. Pada penelitian ini akan dilakukan penerapan metode Eucliean Distance untuk ekstraksi ciri dokumen dan kemiripan dokumen.
Copyrights © 2019