Abstrak – Permasalahan yang muncul pada saat pembobotan menggunakan nilai “term frequency–inversedocument frequency” (tf-idf) adalah adanya kebutuhan untuk selalu melakukan perhitungan ulang nilai inversedocument frequency (idf) setiap kali dokumen baru ditambahkan ke dalam database. Hal ini menyebabkanpeningkatan kompleksitas komputasi menjadi O(N2). Untuk menangani masalah tersebut, dalam paper ini diusulkansebuah metode yang menggunakan cosine similarity dan sejumlah korpus statis yang telah didefinisikan sebelumnya.Cosine similarity digunakan untuk menghitung kemiripan nilai term frequency (tf) dokumen baru dengan reratanilai tf dari setiap korpus statis yang ada dalam database. Nilai idf dari korpus statis yang memiliki nilai similaritypaling tinggi dengan dokumen baru kemudian dipilih sebagai nilai idf dari dokumen yang baru. Hasil uji cobamenunjukkan bahwa tidak terdapat perbedaan yang signifikan antara nilai tf-idf yang dihitung dengan metode telahada sebelumnya dengan metode yang diusulkan dalam paper ini. Dengan kata lain, metode ini dapatdipertimbangkan sebagai alternatif penentuan nilai idf, terutama karena kompleksitasnya yang hanya O(N).
Copyrights © 2020