Penelitian ini bertujuan membandingkan dua skema representasi teks, TF-IDF dan Count Vectorizer, untuk membangun sistem rekomendasi judul skripsi berbasis content-based filtering pada repository Universitas Jambi. Kedua metode dipilih karena mewakili dua pendekatan pembobotan yang berbeda, TF-IDF menonjolkan istilah yang penting pada korpus sehingga cocok membedakan topik, sedangkan Count Vectorizer hanya berdasarkan frekuensi kemunculan kata dalam suatu dokumen tanpa mempertimbangkan sebarannya di korpus. Data berupa judul dan abstrak diperoleh melalui web scraping, kemudian diproses dengan deteksi bahasa, penghapusan stop-word, stemming, dan pembersihan teks. Untuk mengatasi ketiadaan label, dilakukan klasterisasi menggunakan HDBSCAN guna menghasilkan label tematik sementara, lalu subset berlabel (347 dokumen) dibagi menjadi 80% data latih dan 20% data uji dan dievaluasi menggunakan K-Nearest Neighbors dengan metrik accuracy, precision, recall, F1-score, serta analisis confusion matrix. Hasil menunjukkan kombinasi TF-IDF + K-Nearest Neighbors (k = 7) mencapai akurasi 98,57%, presisi 99,05%, recall 98,57%, dan F1-score 98,48%, melampaui Count Vectorizer yang tertinggi pada akurasi 94,29%. Prototipe Streamlit sebagai proof of concept menunjukkan bahwa TF-IDF menghasilkan rekomendasi yang lebih relevan dan efisien untuk penemuan skripsi di repository Universitas Jambi.
Copyrights © 2025