Claim Missing Document
Check
Articles

Analisis Sentimen Tweet COVID-19 menggunakan K-Nearest Neighbors dengan TF-IDF dan Ekstraksi Fitur CountVectorizer Mahendra, Muhammad Hafizh; Murdiansyah, Danang Triantoro; Lhaksmana, Kemas Muslim
Dike Vol. 1 No. 2 (2023): Dike Edisi Agustus
Publisher : CV. Ro Bema

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.69688/dike.v1i2.35

Abstract

Analisis sentimen tweet terkait COVID-19 telah menjadi topik penelitian yang menarik karena memberikan wawasan tentang pandangan dan perasaan pengguna media sosial terhadap situasi kesehatan global ini. Dalam penelitian ini, kami melakukan analisis sentimen tweet COVID-19 menggunakan metode K-Nearest Neighbors (K-NN) dengan dua metode ekstraksi fitur yang berbeda, yaitu Term Frequency-Inverse Document Frequency (TF-IDF) dan CountVectorizer. Langkah pertama dalam penelitian ini adalah mengumpulkan dataset tweet terkait COVID-19 dari sumber yang dapat dipercaya. Setelah itu, kami membersihkan dan melakukan pra-pemrosesan data untuk mengatasi masalah seperti tanda baca, stop words, dan tautan. Selanjutnya, kami menerapkan dua teknik ekstraksi fitur, yaitu TF-IDF dan CountVectorizer, untuk mengubah teks tweet menjadi representasi vektor yang dapat digunakan oleh algoritma K-Nearest Neighbors. Dalam implementasi K-NN, kami menentukan parameter K yang optimal melalui validasi silang untuk meningkatkan kinerja model. Kami juga membagi dataset menjadi subset pelatihan dan pengujian untuk mengukur akurasi dan kinerja model secara objektif. Hasil eksperimen menunjukkan bahwa K-Nearest Neighbors dengan ekstraksi fitur TF-IDF dan CountVectorizer keduanya memberikan hasil yang baik dalam analisis sentimen tweet COVID-19. Namun, kami menemukan bahwa satu metode mungkin memberikan performa yang lebih baik tergantung pada karakteristik dataset tertentu. Dalam kesimpulan, analisis sentimen tweet COVID-19 dengan menggunakan K-Nearest Neighbors dan dua metode ekstraksi fitur, TF-IDF dan CountVectorizer, dapat memberikan wawasan berharga tentang pandangan dan perasaan pengguna media sosial selama masa pandemi. Penelitian ini memberikan kontribusi untuk memahami persepsi publik tentang COVID-19 dan dapat berguna untuk menginformasikan kebijakan kesehatan dan strategi komunikasi yang lebih efektifPada studi ini digunakan KNN (K-Nearest Neighbor) yang memiliki kompleksitas komputasi rendah untuk mengklasifikasikan tweet. Kemudian ekstraksi fitur yang digunakan adalah TF-IDF (Term Frequency - Inverse Document Frequency) dan CountVectorizer. Hasil pengujian pada studi ini menghasilkan hasil akurasi terbaik 73,2% dengan menggunakan TF-IDF.
Multi-Label Topic Classification on the Qur'an using the K-Nearest Neighbor and Latent Semantic Analysis Methods Ghina Annisa Shabrina; Kemas Muslim Lhaksmana
Jurnal Indonesia Sosial Teknologi Vol. 5 No. 12 (2024): Jurnal Indonesia Sosial Teknologi
Publisher : Publikasi Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.59141/jist.v5i12.1340

Abstract

The Qur'an, comprising over 80,000 words, 6,236 verses, and 114 surahs, presents a multifaceted and deeply significant text that demands a nuanced understanding of historical context, classical Arabic, and exegesis. To analyze and classify its content, various methodologies have been employed, including K-Nearest Neighbor (KNN) and Latent Semantic Analysis (LSA). This research investigates the effectiveness of combining KNN with LSA for multi-label topic classification of Qur'anic verses. The study reveals that KNN alone achieved a micro average F1-score of 0.49, demonstrating reliable performance particularly for topics such as "aqidah" (creed) and "worldly matters." When LSA was applied with 100 components, there was a decrease in performance, reflected by a drop in the micro average F1-score to 0.43 and an increase in Hamming loss to 0.1657. However, as the number of LSA components increased to 200 and 300, performance improved, with micro average F1-scores rising to 0.45 and 0.47, and Hamming loss values decreasing to 0.1507 and 0.1466, respectively. This indicates that while LSA can enhance KNN performance, optimal results are achieved with a higher number of components
Hadith Text Classification Based on Topic Using Convolutional Neural Network (CNN) and TF-IDF Athallah, Muhammad Rafi; Lhaksmana, Kemas Muslim
Journal of Renewable Energy, Electrical, and Computer Engineering Vol. 5 No. 1 (2025): March 2025
Publisher : Institute for Research and Community Service, Universitas Malikussaleh, Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29103/jreece.v5i1.20354

Abstract

Convolutional Neural Networks (CNN) will develop a hadith classification system to categorize texts based on specific topics or categories. This study compares two text representation techniques, namely Term Frequency- Inverse Document Frequency (TF-IDF) and Word2Vec, concerning the application of stemming and without stemming in the process. This study utilizes Category ID 0-5. About 2,845 data have been processed as required for testing. The data was divided into two parts, with a proportion of 80:20 for training and testing. Next, several models were evaluated, namely Word2Vec with stemming, TFIDFCNN without stemming, and TFIDFCNN with stemming. Accuracy, precision, recall, and F1 score metrics were used to assess the performance. The results show that the TFIDFCNN model without stemming performs best with 85% accuracy in topic-based text classification. This is due to the stability and efficiency of the model in processing data.
Retweet Prediction Using ANN Method and Artificial Bee Colony Jondri, Jondri; Farisi, Kamaludin Hanif; Lhaksmana, Kemas Muslim
CSRID (Computer Science Research and Its Development Journal) Vol. 15 No. 2: June 2023
Publisher : LPPM Universitas Potensi Utama

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

In the ongoing modern era, the rapid dissemination of information takes place, utilizing various channels for data exchange. One such platform is the social media platform Twitter, renowned for its swift and extensive information propagation. A pivotal factor contributing to information distribution on Twitter is the retweet feature, whereby users can redistribute content to their audience. A study has been conducted to forecast this retweet activity by employing the Artificial Neural Network classification method in conjunction with the Artificial Bee Colony optimization approach. This study leverages diverse features, encompassing content-based feature, user-based feature, and time-based feature. The evaluation results from this study reveal that the proposed method achieves an accuracy value of around 83% with the highest accuracy value reaching 84%. These findings indicate that the fusion of the Artificial Neural Network classification method executed with optimization using the Artificial Bee Colony algorithm yields dependable and consistent performance in predicting retweet activities.
Klasifikasi Multilabel pada Topik ayat Al-Qur’an Menggunakan Random Forest dan Naïve Bayes Zulkarnaen, Imran; Lhaksmana, Kemas Muslim
eProceedings of Engineering Vol. 12 No. 2 (2025): April 2025
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Al-Qur'an, sebagai kitab suci umat Islam, menyimpan makna yang mendalam, mencakup aspek akidah, ibadah, dan etika sosial. Namun, kerumitan bahasa dalam Al-Qur'an menimbulkan tantangan dalam pengelompokan ayat-ayatnya ke dalam kategori tematik tertentu, terutama dengan pendekatan tradisional yang sering kali tidak dapat menggali hubungan semantik antar kata secara mendalam. Untuk mengatasi tantangan ini, penelitian ini mengembangkan sistem klasifikasi multilabel yang berbasis graph mining, dengan memanfaatkan pengukuran centrality. Sistem tersebut melibatkan pembuatan graf kata untuk merepresentasikan hubungan antar kata, serta penerapan algoritma random forest dan naïve bayes dalam mengklasifikasikan ayat-ayat Al-Qur'an ke dalam delapan kategori tematik. Proses pengolahan data mencakup penghapusan kata henti (stopwords), tokenisasi, dan ekstraksi fitur berdasarkan centrality, seperti closeness, betweenness, dan eigenvector. Hasil penelitian menunjukkan bahwa penggunaan betweenness centrality dengan penggunaan kata henti memberikan performa terbaik, dengan nilai Hamming loss sebesar 0.1631 pada random forest. Temuan ini menekankan keunggulan pendekatan berbasis graf dalam memahami hubungan kompleks antar kata dalam teks Al-Qur'an serta berkontribusi pada pengembangan metode klasifikasi tematik berbasis teknologi yang lebih efisien. Kata kunci— klasifikasi Multilabel, Tematik, Al-Qur’an, Graf, Sentralitas, Graph Mining, Hamming Loss
Prediksi Employee Attrition Menggunakan Metode Decision Tree dan XGBoost dengan Seleksi Fitur ChiSquare Putri, Arla Sifhana; Lhaksmana, Kemas Muslim
eProceedings of Engineering Vol. 12 No. 3 (2025): Juni 2025
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Employee attrition adalah peristiwa di mana suatuperusahaan kehilangan karyawan karena berbagai alasan.Employee attrition dapat berdampak negatif terhadapproduktivitas dan stabilitas perusahaan, sehinggaperusahaan perlu mengambil langkah pencegahan yangtepat terhadap terjadinya hal tersebut. Dalam penelitianini, metode klasifikasi yang digunakan adalah DecisionTree dan XGBoost, dengan menerapkan seleksi fitur Chisquare. Metode Decision Tree dipilih karena kemudahaninterpretasi dan implementasinya, sementara XGBoostdipilih karena memiliki kinerja prediksi yang sangat baik.Seleksi fitur Chi-square digunakan untukmengidentifikasi fitur-fitur yang memiliki hubungansignifikan dengan fitur target. Evaluasi performa antarakedua metode dilakukan menggunakan metrik sepertiaccuracy, precision, recall, dan f1-score. Hasil penelitianmenunjukkan bahwa metode Decision Tree mencapaiakurasi tertinggi sebesar 93.58% dengan memanfaatkan20 fitur dengan nilai Chi-square tertinggi. Sementara itu,metode XGBoost berhasil mencapai akurasi terbaiksebesar 98.65% dengan memanfaatkan 25 fitur dengannilai Chi-square tertinggi. Penggunaan seleksi fitur Chisquare secara signifikan meningkatkan performa modelprediksi. Hal ini menunjukkan bahwa model denganmetode XGBoost lebih unggul dalam memprediksikemungkinan terjadinya employee attrition dibandingkandengan metode Decision Tree. Kata kunci: employee attrition, prediksi, decision tree, xgboost, chi-square
Klasifikasi Multilabel pada Teks Effect Kartu Monster Permainan Kartu Yu-Gi-Oh! Pamungkas, Danit Hafiz; Lhaksmana , Kemas Muslim
eProceedings of Engineering Vol. 11 No. 4 (2024): Agustus 2024
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak —Yu-Gi-Oh! Trading Card Game adalah sebuahpermainan kartu dimana pemain membangun deck, menyusunstrategi dan menghubungkan kemampuan atau effect suatukartu dengan kemampuan kartu lainnya. Saat ini terdapat lebihdari 10000 kartu berbeda dengan effect berbeda sehingga dapatmenyulitkan untuk mencari kartu dengan effect tertentu yangcocok dengan strategi yang ingin dilakukan. Terdapat aplikasiresmi yang dapat mencari kartu, termasuk dengan caramencari kemampuan dari kartu tersebut. Namun, aplikasitersebut memiliki kekurangan pada mesin pencariannya yangsangat sederhana dan dapat menghasilkan false positive. Dalampenelitian ini dibangun klasifier multilabel yang dapatmengklasifikasikan effect kartu untuk membantu pencariankartu, dan juga menentukan praproses yang tepat untukklasifikasi ini. Dilakukan pendekatan transformasi problemdimana klasifikasi multilabel dipecah menjadi 6 klasifikasibiner sesuai banyaknya label. Lalu, prediksi klasifikasi binertersebut digabungkan menjadi prediksi klasifikasi multilabel.Klasifikasi dengan menggunakan praproses penghapusan stopword menghasilkan micro average f1-score terbaik dengan nilai0.54. Walaupun begitu, nilai ini kurang baik dan menunjukkanbahwa klasifier belum dapat melabeli data dengan baik,sehingga klasifier yang dibangun belum dapat membantupemain mencari kartu dengan kelas effect yang sesuaiharapan.1 Kata kunci— klasifikasi, multilabel, stemming, penghapusanstop word, yu-gi-oh
Pengaruh Seleksi Fitur Information Gain pada Klasifikasi Berita Hoax di Twitter dengan Menggunakan Metode Naive Bayes Multinomial Andiani, Annisa Dwi; Muslim L, Kemas
eProceedings of Engineering Vol. 11 No. 4 (2024): Agustus 2024
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak - Indonesia merupakan salah satu negarayang memiliki banyak pengguna media sosial, konsumsimedia sosial yang tinggi tanpa dibarengi dengan sikapkritis dalam melakukan filter informasi yang didapatmembuat berita hoax menjadi semakin mudahtersebarluaskan. Hoax merupakan berita yangdisebarkan dengan tujuan agar publik mempercayaihal yang tidak diketahui kebenarannya. Hoax dapatmenimbulkan adanya kecemasan dan permusuhan bagipihak yang terpapar. Pada penelitian tugas akhir ini,dibangun sistem klasifikasi berita hoax di twitterdengan menggunakan metode naive bayes multinomialyang dikombinasikan menggunakan pembobotan TFIDF serta penggunaan seleksi fitur information gain.Hasil akhir pengujian menunjukkan bahwapenggunaan information gain pada klasifikasi hoax inidapat mengurangi nilai overfitting dari akurasi. Hasilakurasi terbaik yang didapat dari penelitian ini adalahsebesar 79,87% dengan menggunakan klasifikasi NaiveBayes Multinomial, pembobotan TD-IDF, dan tanpapenggunaan seleksi fitur Information Gain. Kata kunci : hoax, twitter, TF-IDF, information gain, naive bayes multinomial
Prediksi Retweet Berdasarkan Fitur Pengguna, Konten, dan Waktu Menggunakan Metode Klasifikasi ANN-Cat Swarm Optimization Syadzily , Muhammad Hasan; Jondri, Jondri; Lhaksmana, Kemas Muslim
eProceedings of Engineering Vol. 11 No. 4 (2024): Agustus 2024
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak - Twitter merupakan salah satu saranamicroblogging populer saat ini yang memungkinkanpenggunanya untuk mengirim pesan berupa teks, gambar,atau video, serta berbagi informasi dengan cepat. Salah satufitur utama di Twitter adalah retweet, dengan fitur inipengguna dapat memposting ulang pesan yang diunggaholeh orang lain. Penelitian ini bertujuan untuk membangunmodel prediksi retweet dengan metode klasifikasi ANN yangdioptimasi oleh algoritma CSO menggunakan fitur berbasispengguna, konten, dan waktu. Masalah yang dihadapidalam penelitian ini yaitu ketidakseimbangan kelas yangsering terjadi pada data retweet. Untuk mengatasi masalahtersebut, digunakan teknik oversampling danundersampling. Hasil evaluasi pada penelitian inimenunjukkan bahwa proses klasifikasi ANN dengan CSOdapat mencapai nilai akurasi sebesar 86.70% dan F1-Scoresebesar 86.61% dengan melakukan teknik undersampling. Kata kunci : retweet, prediksi, ANN, CSO, undersampling
SENTIMENT ANALYSIS ABOUT THE 2024 PRESIDENTIAL ELECTION USING CNN METHOD Ahmad, Alif Faidhil; L, Kemas Muslim
JIPI (Jurnal Ilmiah Penelitian dan Pembelajaran Informatika) Vol 10, No 3 (2025)
Publisher : STKIP PGRI Tulungagung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29100/jipi.v10i3.6457

Abstract

The upcoming 2024 Indonesian General Election (Pemilu 2024) will be interesting news for online media users. With so much news about the election, online media has become one of the most effective media used to guide public opinion. Apart from that, public opinion is that the coverage in online media for each candidate is not balanced or not because a media is considered to have an affiliation with a particular candidate. To prove this opinion, sentiment analysis will be carried out on several online media in order to prove whether people's opinions are correct or not. Although previous research has used various platforms and achieved various levels of accuracy using the Convolutional Neural Network (CNN) and Support Vector Machine (SVM) methods with various features, this analysis will be developed using the Convolutional Neural Network (CNN) method to obtain higher accuracy and will be compared with the Support Vector Machine (SVM) method from the media platforms Detik.com, CNN Indonesia and CNBC Indonesia. The final results prove that the use of the Convolutional Neural Network (CNN) method shows an average combined performance of 65% (Cancidate 1 = 61%, Candidate 2 = 69%, Candidate 3 = 65%) smaller than the performance of the Support Vector Machine (SVM) method. with a combined average of  74% (Candidate 1 = 73%, Candidate Candidate 2 = 77%, Candidate Candidate 3 = 72%). This study provides insights into optimizing sentiment classification techniques for Online Media platforms, emphasizing the importance of leveraging semantic and contextual information in sentiment analysis tasks.
Co-Authors Abdurrahman, Azzam Achmad Salim Aiman Adelia, Dila Adhyaksa Diffa Maulana Aditya Eka Wibowo Aditya Gifhari Soenarya Adiwijaya Aghi Wardani Agni Octavia Agus Kusnayat Ahmad Syafiq Abiyyu Ahmad, Alif Faidhil Al Faraby, Said Alberi Meidharma Fadli Hulu Amalia Elma Sari Andiani, Annisa Dwi Angraini, Nadya Arda Anisa Herdiani Annisa Miranda Arini Rohmawati Athallah, Muhammad Rafi Aura Sukma Andini Bayu Muhammad Iqbal Bonar Panjaitan Brata Mas Pintoko Chandra Jaya Riadi Chlaudiah Julinar Soplero Lelywiary Choirulfikri, Muhammad Rizqi Damayanti, Lisyana Dana Sulitstyo Kusumo Danang Triantoro Murdiansyah David Winalda Delva, Dwina Sarah Deni Saepudin Denny Darlis Dewantara, Muhammad Pascal Dida Diah Damayanti Didit Adytia dina juni restina Dino Caesaron Donni Richasdy Donny Rhomanzah Dzidny, Dimitri Irfan Edgarsa Bramandyo Widyarto Eki Rifaldi Eko Darwiyanto Ela Nadila Emrald Emrald Erwin Budi Setiawan Fakhrana Kurnia Sutrisno Farisi, Kamaludin Hanif Fathih Adawi Ahmad Ferdian Yulianto Fhira Nhita Ghina Annisa Shabrina Guido Tamara Haga Simada Ginting Harmandini, Keisha Priya Haura Athaya Salka Herodion Simorangkir Hutama, Nanda Yonda Ika Puspita Dewi Intan Khairunnisa Fitriani Iqmal Lendra Faisal Amien Irgi Aditya Rachman Isabella Vichita Kacaribu Isman Kurniawan Jofardho Adlinnas Jondri Jondri Jordan, Brilliant Kamaludin Hanif Farisi Kautsar Ramadhan Sugiharto Lukito Agung Waskito Luqman Bramantyo Rahmadi Luthfi, Muhammad Faris M. Mahfi Nurandi Karsana Mahendra Dwifebri Mahendra Dwifebri Purbolaksono Mahendra, Muhammad Hafizh Marendra Septianta Marozi, Ericho Mehdi Mursalat Ismail Meira Reynita Putri Mira Rahayu Moch Arif Bijaksana Mohamad Reza Syahziar Muhammad Abdurrohman Al Fatih Muhammad Adzhar Amrullah Muhammad Arif Kurniawan Muhammad Ilham Maulana Muhammad Rifqi Fauzi Ramdhani Muhammad Yuslan Abu Bakar Muhammad Zaid Dzulfikar muhammad zaky ramadhan Muhammad Zidny Naf'an Murman Dwi Praseti Musyafa’noer Sandi Pratama Nanda Yonda Hutama Naufal Furqan Hardifa Naufal Hilmiaji Naufal Rasyad Nibras Syihabil Haq Octaryo Sakti Yudha Prakasa Okky Zoellanda A. Tane Pamungkas, Danit Hafiz Praja, Yudhistira Imam Purwita, Naila Iffah Putri, Arla Sifhana Putrisia, Denada R. Fajrika hadnis Putra Rafi Hafizhni Anggia Rafisa Arif Irfan Rahadian, Muhammad Rafi Rastim Rastim Rayhan, Muhammad Aditya Resky Nadia Rizki Luthfan Azhari Rizki Nurhaliza Harahap Rizky Ahmad Saputra Rizky, Fariz Muhammad Salman Farisi Setya Hadi Seno Adi Putra Seto Sumargo Siddiq, Ikhsan Maulana Sindi Fatika Sari Sri Utami Sri Widowati Sukmawan Pradika Janusange Santoso Suwaldi Mardana Syadzily , Muhammad Hasan Tri Widarmanti Try Moloharto Try Moloharto Vitalis Emanuel Setiawan Wardhani, Fitri Herinda Widi Astuti Widi Astuti Youga Pratama Yuliant Sibaroni Yusuf Nugroho Doyo Yekti Zaena, Siffa Zaenal Abidin ZK Abdurahman Baizal Zulkarnaen, Imran