Claim Missing Document
Check
Articles

Found 22 Documents
Search

Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa Indonesia Rahma, Iftitah Athiyyah; Suadaa, Lya Hulliyyatus
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 10 No 6: Desember 2023
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2023107325

Abstract

Klasifikasi teks merupakan salah satu tugas yang fundamental dalam natural language processing (NLP). Dalam dunia nyata, data dan sumber daya yang tersedia untuk pengklasifikasian teks terbatas. Salah satu kendala pada data berlabel yang digunakan yaitu imbalanced data atau data yang tidak seimbang. Permasalahan data yang tidak seimbang memengaruhi kinerja dan keakuratan model karena model hanya terfokus pada data dengan label mayoritas. Sementara itu, data berlabel minoritas cenderung diklasifikasikan tidak tepat oleh model, padahal untuk beberapa kasus kemampuan model untuk memprediksi data dengan label minoritas lebih penting. Untuk mengatasinya, penelitian ini melakukan pendekatan oversampling yaitu menambah data untuk menyeimbangkan dataset. Penerapan oversampling pada data teks dikenal dengan text augmentation. Pada penelitian ini dilakukan dua teknik text augmentation yaitu synonym replacement dan back translation pada beberapa kondisi ketidakseimbangan dan skenario augmentasi terhadap dua dataset. Berdasarkan hasil eksperimen, augmentasi mampu meningkatkan skor F1 label minoritas. Augmentasi lebih signifikan dalam dataset kecil dan kondisi ketidakeimbangan yang parah. Hasil dari teknik back translation lebih baik dibandingkan dengan teknik synonym replacement. Selain itu, hasil penelitian menunjukkan bahwa skenario jumlah augmentasi juga berpengaruh terhadap kenaikan skor F1. Semakin banyak jumlah data augmentasi belum tentu memberikan hasil yang semakin baik karena terindikasi overfitting pada data latih. Kata-kata yang tidak normal atau tidak baku pada dataset teks informal memengaruhi proses augmentasi sehingga hasil teks sintetis yang diperoleh tidak sebaik pada dataset teks formal.   Abstract Text classification is one of the fundamental tasks in natural language processing (NLP). However, data and resources for text classification are limited in actual application. One of the constraints on the dataset for text classification is imbalanced data, or the condition when one label has more data than the others. Imbalanced data affects the performance and accuracy of the model because the model only focuses on the majority label data. Meanwhile, the minority label data tends to be classified incorrectly by the model, even though, in some cases, the model's ability to predict data with minority labels is more important. To solve this problem, this research uses an oversampling approach to augment data and balance the dataset. The application of oversampling text data is known as text augmentation. This research uses two text augmentation techniques, synonym replacement and back translation, applied to several imbalance conditions and augmentation scenarios for two datasets. Based on experimental results, augmentation can increase the F1 score of the minority class. Augmentation is more significant in small datasets and severe imbalance conditions. The results of the back translation technique are better than synonym replacement. In addition, this study's results show that the number of augmentation scenarios affects an increase in F1-score. However, increasing the augmentation data cannot ensure the results are getting better. Furthermore, words that are not normal in informal text datasets affect the augmentation process, so the results of synthetic text are better than the formal text dataset.
Automated Essay Scoring Menggunakan Semantic Textual Similarity Berbasis Transformer Untuk Penilaian Ujian Esai Pradani, Kharisma Ayu; Suadaa, Lya Hulliyyatus
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 10 No 6: Desember 2023
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2023107338

Abstract

Ujian berbasis esai seringkali digunakan untuk menguji pemahaman siswa dalam menyelesaikan permasalahan. Tak terkecuali dalam pelaksanaan ujian di Politeknik Statistika STIS. Dalam melakukan penilaian pada jawaban tipe ini, dibutuhkan waktu serta tenaga yang besar, dan sering kali menimbulkan ketidakkonsistenan dalam penilaian. Hal ini dapat terjadi salah satunya karena perbedaan cara penilaian yang dilakukan oleh orang yang berbeda. Oleh karena itu diperlukan penyelesaian yang bisa mengefektifkan waktu, tenaga serta menjaga kekonsistenan aspek penilaian, diantaranya yaitu dengan automated essay scoring (AES). AES merupakan suatu model yang dilatih untuk menilai suatu esai secara otomatis berdasarkan kemiripan jawaban dengan kunci jawaban. Pada penelitian ini, metode yang diusulkan untuk menghitung kemiripan semantik teks berbahasa Indonesia antara jawaban esai dan kunci jawabannya yaitu model berbasis Transformers IndoBERT. Sebagai baseline, digunakan teknik ekstraksi fitur Term Frequency - Inverse Document Frequency (TF-IDF) dan penghitungan kemiripan fitur menggunakan cosine similarity dan linear regression. Selanjutnya nilai kemiripan tersebut dikonversi ke rentang nilai yang diinginkan sebagai prediksi nilai dari setiap esai. Berdasarkan hasil evaluasi, diperoleh bahwa model fine-tuned IndoBERT merupakan model terbaik dengan nilai MAE dan RMSE sebesar 0.1285 dan 0.2001.   Abstract Essay-based exams are often used to test students’ understanding of solving problems. However, assessing this type of answer takes a lot of time and effort and often results in inconsistencies. One of the reasons is the different ways between people while doing the assessment. Therefore, a solution is needed to streamline time, effort, and maintain consistency in aspects of assessment, including automated essay scoring (AES). AES is a model trained to assess an essay automatically based on the similarity of answers with the answer key. In this study, the method proposed to calculate the semantic similarity of Indonesian text between essay answers and answer keys is a model based on the Transformer BERT. As a baseline, the Term Frequency – Inverse Document Frequency (TF-IDF) feature extraction technique is used and calculating feature similarity using cosine similarity and linear regression. Then the similarity value is converted to the desired range of values as the predicted value of each essay. Based on the evaluation results, it was found that the fine-tuned IndoBERT model was the best model, with MAE and RMSE values of 0.1285 and 0.2001.