Claim Missing Document
Check
Articles

Found 1 Documents
Search

SEMEVAL 2017 TUGAS 4: ANALISIS SENTIMEN DI TWITTER Brian Arnesto Sitorus; Zakiul Fahmi Jailani; Dita Nurmadewi
Journal of Scientech Research and Development Vol 5 No 2 (2023): JSRD, December 2023
Publisher : Ikatan Dosen Menulis

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.56670/jsrd.v5i2.299

Abstract

Dataset SemEval yang digunakan dalam penelitian ini mencakup 11 set dataset tweet dari platform twitter yang dikumpulkan antara tahun 2013 hingga 2016. Dataset yang didapatkan masih memerlukan beberapa proses preprocessing agar kesalahan dalam dataset tersebut dapat teratasi seperti adanya tweet yang dipisahkan mengggunakan tab dan koma, sehingga dalam satu dataset dapat memuat beberapa tweet yang saling bertumpuk. Dikarenakan ada 2 dataset yang memiliki terlalu banyak kesalahan performattan, hanya 9 set dataset yang digunakan dalam penelitian ini. Pada proses praprocessing, kesalahan dalam dataset dianalisis menggunakan library Spacy, selanjutnya tanda @mention yang merujuk kepada username yang dimention dalam tweet tersebut dihapus, lemmatisasi dilakukan dengan menggunakan Spacy, serta karakter yang tidak sesuai dengan ejaan standar dihapuskan. Terdapat tiga kelas diadalam dataset tersebut yaitu neutral, positive dan negative, namun antara ketiga kelas ini memiliki proporsi jumlah yang tidak seimbang. Ketika proporsi dataset tidak seimbang, pada proses training akan menghasilkan model machine learning yang bias pada kelas set yang paling mayoritas. Untuk mengatasi kendala bias ini , maka teknik oversampling dan undersampling diterapkan. Ketika mengimplementasikan kedua teknik ini, metode SMOTE dari teknik oversampling memiliki performa yang terbaik dibandingkan metode lainnya. Selanjutnya, beragam classifier telah diuji bersamaan dengan SMOTE, dan Logistic Regression menunjukkan performa yang paling superior.