Mazta, Muhammad Arrafu
Unknown Affiliation

Published : 1 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 1 Documents
Search

PERBANDINGAN KINERJA TF-IDF DAN COUNT VECTORIZATION PADA SISTEM REKOMENDASI JUDUL SKRIPSI BERBASIS CONTENT-BASED FILTERING Mazta, Muhammad Arrafu; Saputra, Edi; A, Muhammad Razi
Jurnal Informatika Teknologi dan Sains (Jinteks) Vol 7 No 4 (2025): EDISI 26
Publisher : Program Studi Informatika Universitas Teknologi Sumbawa

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.51401/jinteks.v7i4.6741

Abstract

Penelitian ini bertujuan membandingkan dua skema representasi teks, TF-IDF dan Count Vectorizer, untuk membangun sistem rekomendasi judul skripsi berbasis content-based filtering pada repository Universitas Jambi. Kedua metode dipilih karena mewakili dua pendekatan pembobotan yang berbeda, TF-IDF menonjolkan istilah yang penting pada korpus sehingga cocok membedakan topik, sedangkan Count Vectorizer hanya berdasarkan frekuensi kemunculan kata dalam suatu dokumen tanpa mempertimbangkan sebarannya di korpus. Data berupa judul dan abstrak diperoleh melalui web scraping, kemudian diproses dengan deteksi bahasa, penghapusan stop-word, stemming, dan pembersihan teks. Untuk mengatasi ketiadaan label, dilakukan klasterisasi menggunakan HDBSCAN guna menghasilkan label tematik sementara, lalu subset berlabel (347 dokumen) dibagi menjadi 80% data latih dan 20% data uji dan dievaluasi menggunakan K-Nearest Neighbors dengan metrik accuracy, precision, recall, F1-score, serta analisis confusion matrix. Hasil menunjukkan kombinasi TF-IDF + K-Nearest Neighbors (k = 7) mencapai akurasi 98,57%, presisi 99,05%, recall 98,57%, dan F1-score 98,48%, melampaui Count Vectorizer yang tertinggi pada akurasi 94,29%. Prototipe Streamlit sebagai proof of concept menunjukkan bahwa TF-IDF menghasilkan rekomendasi yang lebih relevan dan efisien untuk penemuan skripsi di repository Universitas Jambi.