Dike
Vol. 1 No. 2 (2023): Dike Edisi Agustus

Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer

Mahendra, Muhammad Hafizh (Unknown)
Murdiansyah, Danang Triantoro (Unknown)
Lhaksmana, Kemas Muslim (Unknown)



Article Info

Publish Date
31 Aug 2023

Abstract

Analisis sentimen tweet terkait COVID-19 telah menjadi topik penelitian yang menarik karena memberikan wawasan tentang pandangan dan perasaan pengguna media sosial terhadap situasi kesehatan global ini. Dalam penelitian ini, kami melakukan analisis sentimen tweet COVID-19 menggunakan metode K-Nearest Neighbors (K-NN) dengan dua metode ekstraksi fitur yang berbeda, yaitu Term Frequency-Inverse Document Frequency (TF-IDF) dan CountVectorizer. Langkah pertama dalam penelitian ini adalah mengumpulkan dataset tweet terkait COVID-19 dari sumber yang dapat dipercaya. Setelah itu, kami membersihkan dan melakukan pra-pemrosesan data untuk mengatasi masalah seperti tanda baca, stop words, dan tautan. Selanjutnya, kami menerapkan dua teknik ekstraksi fitur, yaitu TF-IDF dan CountVectorizer, untuk mengubah teks tweet menjadi representasi vektor yang dapat digunakan oleh algoritma K-Nearest Neighbors. Dalam implementasi K-NN, kami menentukan parameter K yang optimal melalui validasi silang untuk meningkatkan kinerja model. Kami juga membagi dataset menjadi subset pelatihan dan pengujian untuk mengukur akurasi dan kinerja model secara objektif. Hasil eksperimen menunjukkan bahwa K-Nearest Neighbors dengan ekstraksi fitur TF-IDF dan CountVectorizer keduanya memberikan hasil yang baik dalam analisis sentimen tweet COVID-19. Namun, kami menemukan bahwa satu metode mungkin memberikan performa yang lebih baik tergantung pada karakteristik dataset tertentu. Dalam kesimpulan, analisis sentimen tweet COVID-19 dengan menggunakan K-Nearest Neighbors dan dua metode ekstraksi fitur, TF-IDF dan CountVectorizer, dapat memberikan wawasan berharga tentang pandangan dan perasaan pengguna media sosial selama masa pandemi. Penelitian ini memberikan kontribusi untuk memahami persepsi publik tentang COVID-19 dan dapat berguna untuk menginformasikan kebijakan kesehatan dan strategi komunikasi yang lebih efektifPada studi ini digunakan KNN (K-Nearest Neighbor) yang memiliki kompleksitas komputasi rendah untuk mengklasifikasikan tweet. Kemudian ekstraksi fitur yang digunakan adalah TF-IDF (Term Frequency - Inverse Document Frequency) dan CountVectorizer. Hasil pengujian pada studi ini menghasilkan hasil akurasi terbaik 73,2% dengan menggunakan TF-IDF.

Copyrights © 2023






Journal Info

Abbrev

dike

Publisher

Subject

Civil Engineering, Building, Construction & Architecture Computer Science & IT Control & Systems Engineering Earth & Planetary Sciences Electrical & Electronics Engineering

Description

Dike: Jurnal Ilmu Multidisiplin dengan No. ISSN: 2986-884X (online) merupakan jurnal ditujukan untuk publikasi artikel ilmiah yang diterbitkan oleh CV. Ro Bema yang bergerak dibidang Publikasi Buku, Jurnal Ilmiah dan berbagai bentuk penerbitan lainnya, jurnal ini sebagai wadah untuk menuangkan hasil ...