Claim Missing Document
Check
Articles

Algoritme Logistic Regression untuk Mendeteksi Ujaran Kebencian dan Bahasa Kasar Multilabel pada Twitter Berbahasa Indonesia Ayu Fransiska; Surya Agustian; Fitri Insani; Muhammad Fikry; Pizaini Pizaini
Jurnal Nasional Komputasi dan Teknologi Informasi (JNKTI) Vol 5, No 4 (2022): Agustus 2022
Publisher : Program Studi Teknik Informatika, Fakultas Teknik. Universitas Serambi Mekkah

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.32672/jnkti.v5i4.4524

Abstract

Abstrak - Ujaran kebencian semakin meningkat bersamaan dengan banyaknya pengguna media sosial. Twitter merupakan salah satu media sosial yang membantu penyeberan ujaran ujaran melalui fitur twit-nya yang dilakukan berulang-ulang. Penelitian ini dilakukan untuk mengklasifikasi apakah sebuah twit mengandung ujaran kebencian atau bahasa kasar, dan jika terdeteksi mengandung ujaran kebencian maka akan diukur tingkatannya. Dataset yang digunakan diambil dari twitter sebanyak 13.126 twit asli. Klasifikasi menggunakan Algoritma logistic Regression dan fitur teks word embedding. Dilakukan beberapa kali percobaan untuk mendapatkan model terbaik agar pengujian didapatkan secara optimal. Rata-rata akurasi yang dari ketiga kelas sebesar 75,59%, untuk kelas hate speech 75,86%,kelas abusive 80,05%, kelas level 70,86% dengan komposisi 90:10.Kata kunci: Klasifikasi, Logistic Regression, Ujaran Kebencian, Twitter. Abstract - Hate speech is increasing along with the number of social media users. Twitter is one of the social media that helps spread utterances through its repeated tweet features. This study was conducted to classify whether a tweet contains hate speech or abusive language, and if it is detected to contain hate speech, the level will be measured. The dataset used was taken from twitter as many as 13,126 original tweets. Classification using Logistic Regression Algorithm and word embedding text feature. Several experiments were carried out to get the best model so that the test was obtained optimally. The average accuracy of the three classes is 75.59%, for the hate speech class is 75.86%, the abusive class is 80.05%, the level class is 70.86% with a composition of 90:10.Keyword : Classification, Logistic Regression, Hate Speech, Twitter.
Analisis Sentimen Masyarakat Terhadap Kebijakan Vaksinasi Covid-19 pada Media Sosial Twitter menggunakan Metode Logistic Regression Ash Shiddicky; Surya Agustian
Computer Science and Information Technology Vol 3 No 2 (2022): Jurnal Computer Science and Information Technology (CoSciTech)
Publisher : Universitas Muhammadiyah Riau

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.37859/coscitech.v3i2.3836

Abstract

Kebijakan melakukan vaksinasi ini hadir sebagai upaya pemerintah dalam merespon wabah penyakit menular Covid-19, tentu dalam suatu kebijakan tidak terlepas dari dukungan maupun kontra. Berbagai komentar ini muncul dari masyarakat baik berupa opini atau fakta pengalaman yang mereka alami, ratusan bahkan ribuan komentar ini dapat menjadi data yang berharga untuk dijadikan bahan analisis dan mengetahui reaksi masyarakat ketika kebijakan vaksinasi Covid-19 ini diterapkan ke masyarakat, data komentar ini dapat diproses untuk mendapatkan informasi, salah satu analisis pendapat atau review dapat dilakukan adalah menggunakan analisis sentimen. Berdasarkan uraian diatas, dapat memanfaatkan pembelajaran mesin menggunakan algoritma Logistic Regression untuk membantu dalam mengolah data informasi tersebut, dalam hal ini klasifikasi. Hasil pengujian menunjukan tingkat akurasi mencapai 82% terhadap data dev akan tetapi tidak diikuti oleh nilai F1-Score yang cukup baik untuk membangun sebuah model, hal ini disebabkan oleh data train memiliki distribusi klasifikasi yang tak seimbang. Maka dilakukan proses Slicing data serta Tuning Hyperparameters yang bertujuan untuk mendapatkan model terbaik, setelah menerapkan model terbaik yang didapat dari data dev maka dilakukan pengujian terhadap data test, metode Logistic Regression menghasilkan nilai akurasi 67% dan F1-score 60% terhadap data test hasil ini membuktikan bahwa model yang dibangun cukup handal dalam melakukan klasifkasi, terbukti nilai f1-score dan akurasi cukup berimbang dan lebih baik dari Naïve Bayes, SVM dan LSTM.
Klasifikasi Sentimen Masyarakat terhadap Kebijakan Vaksin Covid-19 pada Twitter dengan Imbalance Classes Menggunakan Naive Bayes Prima Yohana; Surya Agustian; Siska Kurnia Gusti
Seminar Nasional Teknologi Informasi Komunikasi dan Industri 2022: SNTIKI 14
Publisher : UIN Sultan Syarif Kasim Riau

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Penggunaan media sosial berkembang sangat pesat hingga sebuah informasi dalam bentuk apapun bisa viral (tersebar luas) dalam sekejap saja. Hal ini dikarenakan kebanyakan masyarakat telah memiliki telepon genggam baik dari usia anak-anak hingga dewasa. Masyarakat menggunakan media sosial twitter untuk berbagai kepentingan, antara lain memberi opini dan komentar. Terkait hal tersebut, dukungan dan penolakan juga banyak disampaikan dalam menanggapi program pemerintah untuk menangani pandemi COVID-19 (corona virus disease 2019) dengan mengadakan vaksinasi massal. Penelitian melakukan analisis dan klasifikasi adanya sentimen yang menggambarkan pandangan yang bersifat positif, negatif maupun netral masyarakat tentang covid-19 dengan menggunakan metode Naïve Bayes Classfier. Analisis dilakukan dengan mencari komposisi dataset yang relatif berimbang di antara kelas positif, negatif dan netral. Kombinasi tahapan teks preprocessing diselidiki untuk menghasilkan model NB yang memiliki performa terbaik dari data training, dan divalidasi menggunakan data development. Model final yang dipilih, menghasilkan akurasi 69,56% pada data development, kemudian diterapkan untuk menguji data testing yang belum pernah terlihat sebelumnya. Hasil akurasi yang diperoleh adalah 61% dengan F1-score sebesar 0,57. Pendekatan yang digunakan telah berhasil meningkatkan performa klasifikasi, karena berhasil mengidentifikasi kelas negatif dan positif dengan lebih baik, dibandingkan bila data digunakan apa adanya, tanpa melakukan balancing.
Peringkasan teks otomatis (automated text summarization) pada artikel berbahasa indonesia menggunakan algoritma lexrank Halimah; Surya Agustian; Siti Ramadhani
Jurnal CoSciTech (Computer Science and Information Technology) Vol 3 No 3 (2022): Jurnal Computer Science and Information Technology (CoSciTech)
Publisher : Universitas Muhammadiyah Riau

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.37859/coscitech.v3i3.4300

Abstract

Artikel merupakan kumpulan teks atau kalimat yang panjang dan berisikan gagasan atau pendapat terhadap suatu topik tertentu. Artikel yang sangat panjang akan menghabiskan waktu cukup lama untuk membaca dan memahami poin-poin penting yang disampaikan. Penelitian ini mengusulkan algoritma Lexrank untuk meringkas teks otomatis pada artikel berbahasa indonesia. Penelitian ini menggunakan dataset berupa korpus yang tersusun atas 300 artikel dari berbagai topik. Kalimat yang dipilih menjadi ringkasan untuk gold standard dirata-ratakan dari dua orang annotator. Metode peringkas dokumen dikembangkan untuk menghasilkan ringkasan yang performanya dibandingkan dengan gold standard tersebut menggunakan ROUGE score. Metode bekerja dengan beberapa tahap, mulai dari text preprocessing yang meliputi segmentasi kalimat, case folding, tokenisasi, punctuation removal, stemming dan stopword removal. Kemudian menghitung bobot tf-idf, bobot similarity, pembentukan graf, pemeringkatan kalimat, dan tahap akhir adalah membentuk hasil ringkasan. Untuk pengembangan sistem, 150 dokumen diuji coba dengan variasi pemilihan ranking similarity, dan yang terbaik digunakan sebagai model untuk test document. Hasil pengujian dengan compression rate 50% menghasilkan nilai f-measure rata-rata untuk 150 test document, pada metrik ROUGE-1, ROUGE-2 dan ROUGE-L secara berturut-turut adalah 67,53%, 59,10%, dan 67,05%. Sedangkan untuk compression rate 30% menghasilkan rata-rata f-measure pada ROUGE-1, ROUGE-2 dan ROUGE-L secara berturut-turut adalah 55,82%, 45,51%, dan 54,76%. Penelitian ini menghasilkan akurasi f-measure yang lebih baik dan kompetitif bila merujuk pada hasil-hasil penelitian sejenis.
Pebandingan Metode Decision Tree dan XGBoost untuk Klasifikasi Sentimen Vaksin Covid-19 di Twitter Habib Hakim Sinaga; Surya Agustian
Jurnal Nasional Teknologi dan Sistem Informasi Vol 8, No 3 (2022): Desember 2022
Publisher : Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Universitas Andalas

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25077/TEKNOSI.v8i3.2022.107-114

Abstract

Pemerintah Indonesia melaksanakan vaksinasi dalam upaya pencegahan virus COVID-19. Namun upaya tersebut memicu pro dan kontra dalam masyarakat. Pro dan kontra tersebut dapat dikatakan sebagai sentimen. Sentimen dapat diungkapkan di berbagai media, salah satunya adalah media sosial. Teknik yang digunakan untuk mendeteksi sentimen pada media sosial salah satunya adalah klasifikasi teks dengan machine learning. Penelitian ini akan membandingkan Decision tree dan XGBoost untuk mengklasifikasikan sentimen di twitter. Data diperoleh dengan cara crawling menggunakan pemograman pyton dan Twitter API. Data diberi label dengan teknik crowdsourcing dan majority voting. Data yang digunakan setelah diseimbangkan adalah 6000 data latih, 778 data validasi dan 400 data uji. Hasil pengujian Decision tree dan XGBoost mendapatkan hasil terbaik pada model XGBoost dengan nilai akurasi sebesar 66% dan f1-score sebesar 57%. Hasil ini juga merupakan yang terbaik dibanding metode yang digunakan pada penelitian sebelumnya dengan dataset yang sama.
Klasifikasi Komentar Abusive Dan Hate Speech Teks Twitter Menggunakan Metode Convolutional Neural Network Indri Pangestuti; Surya Agustian
Prosiding Seminar Nasional Teknoka Vol 7 (2022): Proceeding of TEKNOKA National Seminar - 7
Publisher : Fakultas Teknik, Universitas Muhammadiyah Prof. Dr. Hamka, Jakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Twitter salah satu media sosial yang banyak digunakan saat ini, terutama untuk mengeluarkan pendapat secara bebas. Tidak adanya mekanisme penyeleksian kata-kata dan kalimat pada twitter, menyebabkan siapa saja dapat melontarkan ujaran kebencian maupun penggunaan bahasa kasar terhadap orang atau golongan lain. Ujaran kebencian dan bahasa kasar sering ditemukan pada twitter dalam berbagai kasus maupun topik percakapan, seperti perseteruan antar kelompok, ketidakpuasan terhadap produk, sampai kepada protes terhadap kebijakan pemerintah. Penelitian ini mengusulkan penggunaan deep learning untuk mengklasifikasi apakah tweet mengandung ujaran kebencian atau bahasa kasar. Metode yang digunakan Convolutional Neural Network dengan input fitur teks word embedding word2vec. Beberapa skenario pengujian dilakukan untuk mendapatkan hasil optimal dengan melakukan training pada 90% data. Model final yang dipilih diterapkan terhadap data testing sebanyak 10% dari data set, memperoleh akurasi untuk kelas hate speech sebesar 84,92%, dan untuk kelas abusive 91,47%. Hasilnya sangat baik dan kompetitif bila dibandingkan dengan metode-metode machine learning konvensional.
Peringkasan Teks Otomatis Artikel Berbahasa Indonesia Menggunakan Algoritma Textrank Faizah Husniah; Surya Agustian; Iis Afrianty
Prosiding Seminar Nasional Teknoka Vol 7 (2022): Proceeding of TEKNOKA National Seminar - 7
Publisher : Fakultas Teknik, Universitas Muhammadiyah Prof. Dr. Hamka, Jakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Banyaknya informasi yang terdapat pada media online salah satunya adalah artikel. Artikel pada umumnya berisikan kumpulan kalimat yang panjang sehingga pembaca membutuhkan waktu yang lebih banyak untuk memperoleh intisari dari artikel. Sistem peringkasan teks otomatis membantu pengguna mengetahui isi artikel tanpa harus membaca keseluruhan dokumen, sehingga dapat menghemat waktu. Penelitian ini menyelidiki algoritma textrank untuk peringkasan dokumen. Algoritma textrank akan menghitung skor dari setiap kalimat, kemudian memilih sejumlah kalimat sebagai ringkasan. ROUGE scoring digunakan untuk menghitung performa sistem berdasarkan ringkasan manual yang dibuat oleh manusia (human annotator) sebagai gold standard. Hasil pengujian dengan compression rate 50% pada pilihan ranking kalimat yang terpilih sebagai ringkasan, menghasilkan nilai pada ROUGE-1, ROUGE-2 dan ROUGE-L secara berturut-turut adalah 68.76%, 60.60%, dan 68.29%. Sedangkan untuk compression rate 30%, rata-rata pada ROUGE-1, ROUGE2 dan ROUGE-L berturut-turut adalah 45.00%, 31.62%, dan 43.59%. Hasil ini sangat kompetitif dibandingkan dengan score pada penelitian tentang sistem peringkasan dokumen lainnya.
Penerapan Support Vector Machine dan FastText untuk Mendeteksi Hate Speech dan Abusive pada Twitter Afdhal Zikri; Surya Agustian
JURNAL MEDIA INFORMATIKA BUDIDARMA Vol 7, No 1 (2023): Januari 2023
Publisher : Universitas Budi Darma

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30865/mib.v7i1.5408

Abstract

Hate speech and abusive language are negative tendencies that often appear on social media recently. In addition, due to the advancement of technology and the rapid growth of the internet, anyone can now engage in hate speech or even offensive expression such as in Twitter, which eventually leads to fights on that social media platforms. Automatic detection of offensive contents and hate speech is recommended to be applied, especially on the user application’s side, to filter tweet contents which destruct social life in the real world. The purpose of this research is to create a classification model using Support Vector Machine with FastText word embeddings features, to classify if a tweet contains hate speech and/or offensive language. Our contribution in this research is an improvement in performance from the baseline SVM (support vector machine) with FastText word embeddings features input. The experiment results will also be compared with several machine learning method that have been reported using the same dataset of 13,167 tweets. The experiment using the most optimal SVM model, yields an average accuracy of 82.65%, with the accuracies of the hate speech class, abusive language class and hate speech level, are 84.92%, 86.60% and 76.43% respectively. These results are better than conventional machine learning, but cannot exceed the results achieved by deep learning.
Klasifikasi Citra Stroke Menggunakan Augmentasi dan Convolutional Neural Network EfficientNet-B0 Nadila Handayani Putri; Jasril Jasril; Muhammad Irsyad; Surya Agustian; Febi Yanto
JURNAL MEDIA INFORMATIKA BUDIDARMA Vol 7, No 2 (2023): April 2023
Publisher : Universitas Budi Darma

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30865/mib.v7i2.5981

Abstract

A stroke is a sudden onset of brain dysfunction, lasting for 24 hours or longer, resulting from clinically focal and global brain dysfunction. As many as 15 million people die from stroke each year. The stroke patients need an immediate treatment to minimize the risk of brain damage. One of the proponents for the stroke diagnosis is through a computed tomography (CT) image. In recent years, the image processing techniques capable to detect stroke patterns in a brain image, it can be useful for doctors and radiologists in doing diagnosis and treatment. This study aims to compare the level of accuracy using augmentation and without augmentation and hyperparameters using the Convolutional Neural Network in the EfficientNet-B0 architecture to classify ischemic, hemorrhagic, and normal brain stroke images. The data augmentation is produced by rotating, horizontal flipping, and contrast tuning of the original data. Testing data is provided as much as 20% of the portion of the original and augmented data, and the other 80% is used for the training process to find the optimal model. The model search is based on the composition of the training and validation data with a ratio of 70:30, 80:20 and 90:10. The experimental results show that the best performance is obtained for the combined original and augmented images, with accuracies of 97%, 93%, and 94%, respectively, for the three types of data-test: original, augmented, and combined. The merging of original and augmentated images for training data has shown that the model is robust enough in producing high accuracy results.
Perbandingan Klasifikasi Citra CT-Scan Kanker Paru-Paru Menggunakan Contrast Stretching Pada CNN dengan EfficientNet-B0 Alfitra Salam; Febi Yanto; Surya Agustian; Siti Ramadhani
KLIK: Kajian Ilmiah Informatika dan Komputer Vol. 4 No. 3 (2023): Desember 2023
Publisher : STMIK Budi Darma

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30865/klik.v4i3.1448

Abstract

Data from the World Health Organization (WHO) indicates that in 2020, approximately 10 million people died from cancer. Smoking has been identified as a primary factor causing lung cancer, as cigarettes contain over 60 toxic substances that can trigger the development of the disease. The rate of lung cancer has rapidly increased due to excessive cigarette consumption. Detecting nodules in the lungs typically takes about 10-30 minutes. In this study, a Convolutional Neural Network (CNN) algorithm with EfficientNet-B0 architecture is employed to classify lung cancer. The preprocessing process involves contrast stretching, and various hyperparameter optimization techniques such as Adam, Adagrad, and SGD are used to enhance the CNN's performance. Average pooling with output dense layers of 64, 32, 16, 1 is utilized. Performance analysis is conducted using a confusion matrix. The highest classification results are achieved using the ADAM optimizer with a learning rate of 0.01, where accuracy reaches 72.48%, precision is 71.52%, recall is 64.2%, and the F1 score is 64.76%. Meanwhile, results obtained from the original dataset show differences. The highest classification result is obtained using the ADAM optimizer with a learning rate of 0.01, achieving an accuracy of 64.22%, precision of 52.69%, recall of 50.52%, and an F1 score of 43.51%. These results indicate that the use of contrast stretching in lung cancer classification preprocessing is highly effective in improving accuracy
Co-Authors .Safrizal, Safrizal Afdhal Zikri Afriyanti, Liza Aftari, Dhea Putri AGUNG SUCIPTO Ahmad, Rizmah Zakiah Nur Alfitra Salam Arasy, Abdurrahman Ash Shiddicky Aulia Ramadhani Ayu Fransiska Delifah, Nur Dermawan, Jozu Dzaky Abdillah Salafy Eka Pandu Cynthia, Eka Pandu El Saputra, Yoga Elin Haerani Elvia Budianita Fahrezy, Irgi Faizah Husniah Fauzan Ray T Fauzi Ihsan Febi Yanto Febrian Rizki Adi Sutiyo Fitri Insani Fitri Insani Fitri Insani Fitri Wulandari Fitri, Dina Deswara Fuji Astuti Habib Hakim Sinaga Hadi, Mukhlis Halimah Hasibuan, Ilham Habibi Heru Wibowo Idhafi, Zaky Iffa, Marwika Rifattul Ihsan, Miftahul Iis Afrianty Iis Afrianty Iis Afrianty Iis Afrianty Illahi, Ridho Iman Fauzi Aditya Sayogo Indri Pangestuti Iwan Iskandar Iwan Iskandar Jasril Jasril Jasril Jasril Jasril Jasril Lestari Handayani Lubis, Anggun Tri Utami BR. Miftah Farid Muhammad Fikry Muhammad Fikry Muhammad Iqbal Maulana Muhammad Irsyad Muhammad Irsyad Muhammad Ravil Muktar Sahbuddin Mukti M Kusairi Mulyadi, Syahrul Nadila Handayani Putri naldi, Afri Nazir, Alwis Nazruddin Safaat Nazruddin Safaat H Nazruddin Safaat H Negara, Benny Sukma Novriyanto Novriyanto Novriyanto Nurul Fatiara Oktavia, Lola Pangestu, Yoga Pizaini Pizaini Pranata, Joni Prima Yohana Putri Zahwa Putri, Adilah Atikah Putri, Atika Rahmad Abdillah Rahmad Kurniawan Ramadhani, Siti Reski Mai Candra Reski Mai Candra Rizqa Raaiqa Bintana Safrizal, Afri Naldi Salam Kurniawan Saputra, Ikhsan Dwi Saputra, M Ridho Saputra, Nugroho Wahyu Sinaga, Habib Hakim Siska Kurnia Gusti Siti Ramadhani Siti Ramadhani Siti Ramadhani Sri Puji Utami A. Subhi, Yazid Abdullah Suci Rahayu Sulistia Ningsih, Sulistia Suwanto Sanjaya Syaiful Azhar Trya Ayu Pratiwi Utari, Roid Fitrah Yusra Yusra Yusra, Yusra