Magnolia, Cindy
Unknown Affiliation

Published : 2 Documents Claim Missing Document
Claim Missing Document
Check
Articles

Found 2 Documents
Search

PERBANDINGAN METODE RESAMPLING PADA IMBALANCED DATASET UNTUK KLASIFIKASI KOMENTAR PROGRAM MBKM Nurhopipah, Ade; Magnolia, Cindy
Jurnal Publikasi Ilmu Komputer dan Multimedia Vol 2 No 1 (2023): Januari : Jurnal Publikasi Ilmu Komputer dan Multimedia
Publisher : Pusat Riset dan Inovasi Nasional

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.55606/jupikom.v2i1.862

Abstract

Imbalanced dataset yaitu kondisi di mana dataset didominasi oleh salah satu kelas adalah permasalahan yang umum ditemukan dalam aplikasi di dunia nyata. Pada penelitian ini, permasalahan tersebut terjadi pada dataset yang dikumpulkan untuk klasifikasi empat jenis komentar publik terhadap program Merdeka Belajar Kampus Merdeka (MBKM). Dataset tersebut memiliki Imbalanced Rasio yang tinggi sebesar 5:1 dan kinerja klasifikasi yang rendah dengan F-Measure di antara 0,6209 sampai 0,6672. Masalah ini mendasari tujuan penelitian, yaitu mencoba mengeksplorasi beberapa teknik resampling untuk melihat pengaruhnya terhadap kinerja model klasifikasi. Metode resampling yang diteliti adalah undersampling dengan Near Miss dan Tomek Links, oversampling dengan SMOTE dan ADASYN, dan kombinasi undersampling dan oversampling dengan Random Combination Sampling (RCS). Penelitian ini menggunakan empat classifier yaitu Random Forest, Logistic Regression, SVM dan MLP untuk melihat stabilitas efek metode resampling. Berdasarkan analisis yang dilakukan, dapat disimpulkan bahwa metode Near Miss pada penelitian ini tidak memberikan efek positif dalam peningkatan kinerja model. Sebaliknya, metode lainnya dapat memperbaiki kinerja model classiifier dengan meningkatkan nilai F-Measure. Kinerja terbaik diperoleh pada model klasifikasi SVM dengan dataset hasil resampling metode SMOTE. Setelah melalui analisis optimasi model dan metode resampling diperoleh nilai F-Measure maksimal sebesar 0.9524.
Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter Magnolia, Cindy; Nurhopipah, Ade; Kusuma, Bagus Adhi
Edu Komputika Journal Vol 9 No 2 (2022): Edu Komputika Journal
Publisher : Jurusan Teknik Elektro Universitas Negeri Semarang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.15294/edukomputika.v9i2.61854

Abstract

Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.