Jurnal Informatika Teknologi dan Sains (Jinteks)
Vol 7 No 4 (2025): EDISI 26

PERBANDINGAN KINERJA TF-IDF DAN COUNT VECTORIZATION PADA SISTEM REKOMENDASI JUDUL SKRIPSI BERBASIS CONTENT-BASED FILTERING

Mazta, Muhammad Arrafu (Unknown)
Saputra, Edi (Unknown)
A, Muhammad Razi (Unknown)



Article Info

Publish Date
29 Nov 2025

Abstract

Penelitian ini bertujuan membandingkan dua skema representasi teks, TF-IDF dan Count Vectorizer, untuk membangun sistem rekomendasi judul skripsi berbasis content-based filtering pada repository Universitas Jambi. Kedua metode dipilih karena mewakili dua pendekatan pembobotan yang berbeda, TF-IDF menonjolkan istilah yang penting pada korpus sehingga cocok membedakan topik, sedangkan Count Vectorizer hanya berdasarkan frekuensi kemunculan kata dalam suatu dokumen tanpa mempertimbangkan sebarannya di korpus. Data berupa judul dan abstrak diperoleh melalui web scraping, kemudian diproses dengan deteksi bahasa, penghapusan stop-word, stemming, dan pembersihan teks. Untuk mengatasi ketiadaan label, dilakukan klasterisasi menggunakan HDBSCAN guna menghasilkan label tematik sementara, lalu subset berlabel (347 dokumen) dibagi menjadi 80% data latih dan 20% data uji dan dievaluasi menggunakan K-Nearest Neighbors dengan metrik accuracy, precision, recall, F1-score, serta analisis confusion matrix. Hasil menunjukkan kombinasi TF-IDF + K-Nearest Neighbors (k = 7) mencapai akurasi 98,57%, presisi 99,05%, recall 98,57%, dan F1-score 98,48%, melampaui Count Vectorizer yang tertinggi pada akurasi 94,29%. Prototipe Streamlit sebagai proof of concept menunjukkan bahwa TF-IDF menghasilkan rekomendasi yang lebih relevan dan efisien untuk penemuan skripsi di repository Universitas Jambi.

Copyrights © 2025






Journal Info

Abbrev

JINTEKS

Publisher

Subject

Computer Science & IT Control & Systems Engineering

Description

Jurnal Informatika Teknologi dan Sains (JINTEKS) merupakan media publikasi yang dikelola oleh Program Studi Informatika, Fakultas Teknik dengan ruang lingkup publikasi terkait dengan tema tema riset sesuai dengan bidang keilmuan Informatika yang meliputi Algoritm, Software Enginering, Network & ...