p-Index From 2020 - 2025
7.566
P-Index
Claim Missing Document
Check
Articles

Found 9 Documents
Search
Journal : Jurnal Teknologi Informasi dan Ilmu Komputer

Pelabelan Klaster Fitur Secara Otomatis pada Perbandingan Review Produk Rozi, Fahrur; Wijoyo, Satrio Hadi; Isanta, Septiyan Andika; Azhar, Yufis; Purwitasari, Diana
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 1, No 2 (2014)
Publisher : Fakultas Ilmu Komputer

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (711.042 KB)

Abstract

Abstrak Penggunaan review produk sebagai suatu sumber untuk mendapatkan informasi dapat dimanfaatkan untuk mengoptimalkan pemasaran suatu produk. Situs belanja online merupakan salah satu sumber yang dapat digunakan untuk pengambilan review produk. Analisa terhadap produk dapat dilakukan dengan membandingkan antara dua buah produk berbeda berdasarkan fitur produk tersebut. Fitur dari suatu produk didapatkan melalui ekstraksi fitur dengan metode double propagation. Fitur yang terdapat dalam sebuah review sangat banyak serta terdapat beberapa kata yang memiliki arti yang sama yang mewakili suatu fitur tertentu, sehingga diperlukan suatu pengelompokan terhadap fitur tersebut. Pengelompokan suatu fitur produk dapat dilakukan secara otomatis tanpa memperhatikan kamus kata, yaitu dengan menggunakan teknik clustering. Hierarchical clustering merupakan salah satu metode yang dapat digunakan untuk pengelompokan terhadap fitur produk. Pengujian dengan metode hierarchical clustering untuk pengelompokan fitur menunjukkan bahwa metode average linkage memiliki nilai recall dan f-measure yang paling tinggi. Sementara untuk pengujian pelabelan menunjukkan bahwa semantic similarity antar fitur lebih berpengaruh dari pada kemunculan fitur di dokumen. Kata kunci: clustering, fitur produk, pelabelan Abstract Product review can be used as a source for acquire information and to optimize the marketing of product. Online shopping sites are one of source that can be used to get product reviews. Analysis of the product can be done by comparing two different products based on product’s features. Features of a product can be obtained through extraction of features with double propagation method. In the product review there are many feature that can be found, and there are some words that have the same meaning which represents a particular feature, so we need a grouping on the feature. Hierarchical clustering is one method that can be used for grouping the features of the product. Based on testing, hierarchical clustering method for grouping feature indicate that the average linkage method has the highest recall and f-measure. As for testing in labeling indicates that the semantic similarity between features is more influential than the appearance of features in the document. Keywords: clustering, features of the product, labeling
Pelabelan Klaster Fitur Secara Otomatis pada Perbandingan Review Produk Rozi, Fahrur; Wijoyo, Satrio Hadi; Isanta, Septiyan Andika; Azhar, Yufis; Purwitasari, Diana
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 1 No 2: Oktober 2014
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (711.042 KB) | DOI: 10.25126/jtiik.201412112

Abstract

Abstrak Penggunaan review produk sebagai suatu sumber untuk mendapatkan informasi dapat dimanfaatkan untuk mengoptimalkan pemasaran suatu produk. Situs belanja online merupakan salah satu sumber yang dapat digunakan untuk pengambilan review produk. Analisa terhadap produk dapat dilakukan dengan membandingkan antara dua buah produk berbeda berdasarkan fitur produk tersebut. Fitur dari suatu produk didapatkan melalui ekstraksi fitur dengan metode double propagation. Fitur yang terdapat dalam sebuah review sangat banyak serta terdapat beberapa kata yang memiliki arti yang sama yang mewakili suatu fitur tertentu, sehingga diperlukan suatu pengelompokan terhadap fitur tersebut. Pengelompokan suatu fitur produk dapat dilakukan secara otomatis tanpa memperhatikan kamus kata, yaitu dengan menggunakan teknik clustering. Hierarchical clustering merupakan salah satu metode yang dapat digunakan untuk pengelompokan terhadap fitur produk. Pengujian dengan metode hierarchical clustering untuk pengelompokan fitur menunjukkan bahwa metode average linkage memiliki nilai recall dan f-measure yang paling tinggi. Sementara untuk pengujian pelabelan menunjukkan bahwa semantic similarity antar fitur lebih berpengaruh dari pada kemunculan fitur di dokumen. Kata kunci: clustering, fitur produk, pelabelan Abstract Product review can be used as a source for acquire information and to optimize the marketing of product. Online shopping sites are one of source that can be used to get product reviews. Analysis of the product can be done by comparing two different products based on product’s features. Features of a product can be obtained through extraction of features with double propagation method. In the product review there are many feature that can be found, and there are some words that have the same meaning which represents a particular feature, so we need a grouping on the feature. Hierarchical clustering is one method that can be used for grouping the features of the product. Based on testing, hierarchical clustering method for grouping feature indicate that the average linkage method has the highest recall and f-measure. As for testing in labeling indicates that the semantic similarity between features is more influential than the appearance of features in the document. Keywords: clustering, features of the product, labeling
Pembobotan Kata Berbasis Preferensi Dan Hubungan Semantik Pada Dokumen Fiqih Berbahasa Arab Wardhana, Septiyawan R.; Yunianto, Dika R.; Arifin, Agus Zainal; Purwitasari, Diana
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 2 No 2: Oktober 2015
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1672.089 KB) | DOI: 10.25126/jtiik.201522146

Abstract

AbstrakDalam proses pencarian dokumen, pengguna sering menginginkan hasil pencarian yang sesuai dengan preferensi yang diinginkannya. Maka, untuk memperoleh hasil pencarian yang sesuai dengan preferensi tersebut dibutuhkan suatu metode pembobotan kata yang didasarkan pada preferensi tersebut. Metode pembobotan tersebut perlu mempertimbangkan hubungan semantik antar kata untuk meningkatkan relevansi hasil pencarian. Dalam penelitian ini diusulkan metode pembobotan kata berbasis preferensi berdasarkan hubungan semantik antar kata pada dokumen fiqih berbahasa Arab. Latent Semantic Indexing merupakan salah satu metode indexing dalam sistem temu kembali informasi yang mempertimbangkan hubungan semantik antar kata. Hasil pembobotan kata berdasarkan preferensi dijadikan sebuah matriks untuk perhitungan Latent Semantic Indexing yang menghasilkan sebuah vektor. Vektor tersebut dihitung similaritasnya antara vektor query dengan vektor-vektor dokumen yang ada. Metode pembobotan kata berbasis preferensi yang mempertimbangkan hubungan semantik antar kata dapat digunakan dalam perankingan dokumen fiqih bahasa Arab berbasis preferensi. Hal tersebut dapat dilihat dari nilai maksimal precision, recall dan f-measure yang meningkat menjadi 88.75 %, 89.72% dan  87.91%.Kata kunci: Bahasa Arab, Latent Semantic Indexing, Pembobotan Kata, PreferensiAbstractIn the document search process is not uncommon users want search results that correspond to the desired preferences. Thus, to obtain the search results according to user preferences needed a word weighting method based on user preference. The term weighting method needs to consider the semantic relationships between words to improve the relevance of search results. This paper propose a new method of term weighting based preference by considering the semantic relationships between term in documents fiqh Arabic. Latent Semantic Indexing is a method of indexing in information retrieval system that takes the semantic relationships between words. Term weighting results based on preferences made a matrix for calculation of Latent Semantic Indexing which generate a vector for the calculated similarity between the query vector of vectors documents. Term weighting based preference by considering the semantic relationships between term method can be used on the rank documents fiqh Arabic. It can be seen from the value of the precision, recall, and F-measure which increase to 88.75 %, 89.72 % and 87.91 %.Keywords: : Arabic, Latent Semantic Indexing, Term Weighting, Preference
Eliminasi Non-Topic Menggunakan Pemodelan Topik untuk Peringkasan Otomatis Data Tweet dengan Konteks Covid-19 Damayanti, Putri; Purwitasari, Diana; Suciati, Nanik
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 8 No 1: Februari 2021
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.0814324

Abstract

Akun twitter, seperti Suara Surabaya, dapat membantu menyebarkan informasi tentang COVID-19 meskipun ada bahasan lainnya seperti kecelakaan, kemacetan atau topik lain. Peringkasan teks dapat diimplementasikan pada kasus pembacaan data twitter karena banyaknya jumlah tweet yang tersedia, sehingga akan mempermudah dalam memperoleh informasi penting terkini terkait COVID-19. Jumlah variasi bahasan pada teks tweet mengakibatkan hasil ringkasan yang kurang baik. Oleh karena itu dibutuhkan adanya eliminasi tweet yang tidak berkaitan dengan konteks sebelum dilakukan peringkasan. Kontribusi penelitian ini adalah adanya metode pemodelan topik sebagai bagian tahapan dalam serangkaian proses eliminasi data. Metode pemodelan topik sebagai salah satu teknik eliminasi data dapat digunakan dalam berbagai kasus namun pada penelitian ini difokuskan pada COVID-19. Tujuannya adalah untuk mempermudah masyarakat memperoleh informasi terkini secara ringkas. Tahapan yang dilakukan adalah pra-pemrosesan, eliminasi data menggunakan pemodelan topik dan peringkasan otomatis. Penelitian ini menggunakan kombinasi beberapa metode word embedding, pemodelan topik dan peringkasan otomatis sebagai pembanding. Ringkasan diuji menggunakan metode ROUGE dari setiap kombinasi untuk ditemukan kombinasi terbaik dari penelitian ini. Hasil pengujian menunjukkan kombinasi metode Word2Vec, LSI dan TextRank memiliki nilai ROUGE terbaik yaitu 0.67. Sedangkan kombinasi metode TFIDF, LDA dan Okapi BM25 memiliki nilai ROUGE terendah yaitu 0.35. AbstractTwitter accounts, such as Suara Surabaya, can help spread information about COVID-19 even though there are other topics such as accidents, traffic jams or other topics. Text summarization can be implemented in the case of reading Twitter data because of the large number of tweets available, making it easier to obtain the latest important information related to COVID-19. The number of discussion variations in the tweet text results in poor summary results. Therefore, it is necessary to eliminate tweets that are not related to the context before summarization is carried out. The contribution to this research is the topic modeling method as part of a series of data elimination processes. The topic modeling method as a data elimination technique can be used in various cases, but this research focuses on COVID-19. The aim is to make it easier for the public to obtain current information in a concise manner. The steps taken in this study were pre-processing, data elimination using topic modeling and automatic summarization. This study uses a combination of several word embedding methods, topic modeling and automatic summarization as a comparison. The summary is tested using the ROUGE method of each combination to find the best combination of this study. The test results show that the combination of Word2Vec, LSI and TextRank methods has the best ROUGE value, 0.67. While the combination of TFIDF, LDA and Okapi BM25 methods has the lowest ROUGE value, 0.35.
Deteksi Kejadian Lalu Lintas Pada Teks Twitter Dengan Pendekatan Klasifikasi Multi-Label Berbasis Deep Learning Atikah, Luthfi; Purwitasari, Diana; Suciati, Nanik
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 9 No 1: Februari 2022
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2022915206

Abstract

Kemacetan merupakan salah satu kejadian yang sering terjadi di kota-kota besar. Hal ini dapat merugikan pengguna jalan, oleh karena itu perlu dilakukan pendeteksian kejadian lalu lintas. Saat ini, twitter digunakan sebagai sumber informasi untuk mendeteksi suatu kejadian. Namun, pengguna twitter cenderung membagikan beberapa informasi sekaligus, sehingga dalam satu tweet bisa memiliki lebih dari satu label. Pada penelitian ini dilakukan klasifikasi multi-label menggunakan 18.000 data dari akun twitter terverifikasi di Surabaya. Klasifikasi multi-label pada penelitian ini dilakukan untuk mengidentifikasi banyak situasi lalu lintas seperti kondisi cuaca, kecelakaan lalu lintas, kemacetan lalu lintas, lalu lintas padat, dan lalu lintas lancar. Klasifikasi dilakukan dengan menggunakan pendekatan deep learning (CNN dan LSTM) dan word embedding (word2vec dan fastText) dengan augmentasi dan non-augmentasi data. Eksperimen dilakukan dengan 3 skenario berbeda untuk melihat pengaruh data uji yang berbeda pada data latih yang sama. Selanjutnya dilakukan eksperimen untuk menguji pengaruh jumlah label terhadap klasifikasi multi-label pada data uji yang sama. Akurasi tertinggi pada non-augmentasi data adalah 0,75 dan pada augmentasi data adalah 0,95. Dari keseluruhan ujicoba akurasi tertinggi diperoleh dari kombinasi LSTM dan fastText. Abstract Congestion is one of the events that often occurs in big cities. This can be detrimental to road users, therefore it is necessary to detect traffic events accurately and efficiently. Currently, Twitter is used as a source of information to detect an incident. However, twitter users tend to share several information at once, so that in one tweet can have more than one label. Therefore, multi-label classification is necessary. This study utilizes 18,000 data from verified twitter accounts in Surabaya. Multi-label classification is carried out to identify many traffic situations, such as weather conditions, events, traffic jams, heavy traffic, and smooth traffic. Classification is performed using deep learning approach (CNN and LSTM) and word embedding (word2vec and fastText) with augmented and non-augmented . Experiments are carried out with 3 different scenarios to see the effect of different uji data on the same train data. Furthermore, the experiments are conducted to examine the effect of the number of labels on the multi-label classification on the same test data. The highest accuracy on non-augmented data is 0,75 and on augmented data is 0,95. All of the highest accuracy is obtained from the combination of LSTM and fastText
Identifikasi Pengaruh Pandemi Covid-19 terhadap Perilaku Pengguna Twitter dengan Pendekatan Social Network Analysis Purwitasari, Diana; Apriantoni, Apriantoni; Raharjo, Agus Budi
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 8 No 6: Desember 2021
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2021865213

Abstract

Pandemi COVID-19 yang berlangsung lama telah berdampak masif pada berbagai aktivitas publik, misalnya perilaku pengguna di media sosial. Twitter, media sosial yang fleksibel untuk berdiskusi dan bertukar pendapat, menjadi salah satu media populer dalam menyebarluaskan informasi COVID-19 secara dinamis dan up-to-date. Hal ini menjadikan twitter relevan sebagai media ekstraksi pengetahuan dalam mengidentifikasi perubahan perilaku pengguna. Kontribusi penelitian ini adalah menemukan perubahan perilaku pengguna twitter melalui analisis profil pengguna pada periode sebelum dan setelah COVID-19. Data yang digunakan adalah data tweet berbahasa Indonesia. Penelitian ini menggunakan pendekatan Social Network Analysis (SNA) sebagai ekstraksi informasi dalam menentukan aktor utama dan aktor populer. Kemudian, profil pengguna aktif dianalisis untuk mengidentifikasi perubahan perilaku melalui intensitas tweet, popularitas pengguna, dan representasi topik pembahasan. Popularitas pengguna dianalisis dengan pendekatan follower rank, sedangkan representasi topik pembahasan diekstraksi dengan metode Latent Dirichlet Allocation untuk mendapatkan dominan topik yang dibahas oleh setiap pengguna aktif. Tujuannya adalah untuk mempermudah  identifikasi pengaruh pandemi COVID-19 terhadap perubahan perilaku pengguna twitter. Berdasarkan hasil SNA, penelitian ini menemukan tiga aktor  kunci yang aktif pada periode sebelum dan setelah COVID-19. Selanjutnya, hasil analisis dari ketiga aktor tersebut menunjukkan adanya pengaruh pandemi COVID-19 terhadap perubahan perilaku pengguna twitter, yaitu kenaikan intensitas tweet sebesar 58% pada jam kerja, aktor utama yang didominasi oleh 60% pengguna dengan follower rendah, dan topik pembicaraan pengguna twitter yang dominan membahas COVID-19, hobi dan aktivitas di dalam rumah. AbstractThe long-lasting COVID-19 pandemic had a massive impact on public activities, such as user behavior on social media. Twitter, a flexible social media for discussing and exchanging opinions, has become popular in disseminating COVID-19  dynamic and up-to-date information. It makes twitter relevant as a medium of knowledge extraction in identifying user behavior changes. The contribution of this research is to find behavior changes of Twitter users through user profiles analysis in the before and after COVID-19 period. This data used is Indonesian-language tweets. This research used a Social Network Analysis (SNA) to determine the main actors and famous actors. Then, active user profiles were analyzed to identify behavior changes through tweet intensity, user popularity, and representation of the topic of discussion. User popularity was analyzed using a follower rank approach. At the same time, the representation of discussion topics was extracted using the Latent Dirichlet Allocation method to obtain dominant topics which each active user discusses. It aims to make it easier to identify the impact of the COVID-19 pandemic on Twitter user behavior changes. Based on the results of the SNA, this research found three key actors who were active in the before and after COVID-19 period. Then, the results of the analysis of these three user profiles shows that an influence of the COVID-19 pandemic on Twitter user behavior changes: an increase in tweet intensity by 58% during working hours, the leading actor was dominated by 60% of users with low followers, and the topic of Twitter users' conversation that it dominantly discuss COVID-19 issues, hobbies, and activities at home.
Jaringan Komunitas Berbasis Similaritas Topik Bahasan dan Emosi untuk Mengidentifikasi Perilaku Pengguna Twitter Apriantoni, Apriantoni; Purwitasari, Diana; Raharjo, Agus Budi
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 10 No 1: Februari 2023
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2023106317

Abstract

Pandemi COVID-19 menyebabkan situasi krisis yang berdampak pada perubahan perilaku pengguna Twitter terkait pengalaman distres publik. Perubahan perilaku positif bisa berdampak positif. Namun, perubahan perilaku negatif bisa menjadi masalah jika terjadi secara masif, seperti meningkatnya kecemasan pengguna. Oleh karena itu, mengeksplorasi hubungan antara perilaku dan jaringan komunitas pengguna sangat penting untuk menemukan implikasi pandemi COVID-19 terhadap perubahan perilaku pengguna Twitter. Penelitian ini berkontribusi dalam mengidentifikasi perubahan perilaku pengguna berdasarkan model ekstraksi perilaku kolektif pada aktivitas tweet temporal. Mekanisme ini menggunakan topik bahasan dan emosi sebagai variabel ekstraksi untuk menghasilkan jaringan perilaku pengguna. Kemudian, jaringan perilaku tersebut dimodelkan dengan algoritma DeepWalk Network Embeddings untuk memetakan hubungan kedekatan perilaku antar pengguna dan Density Peak Clustering Algorithm untuk mengelompokkan komunitas pengguna berdasarkan kesamaan perilaku yang kuat. Dari analisis 121 pengguna aktif, periode sebelum COVID-19 memiliki 98 pengguna representatif yang didominasi oleh 33% perilaku komunitas terkait aktivitas pribadi dengan emosi senang. Di sisi lain, periode setelah COVID-19 memiliki 54 pengguna representatif yang didominasi oleh 65% perilaku komunitas terkait kesehatan dengan emosi marah. Perubahan perilaku kedua periode tersebut dipengaruhi oleh transisi pola jaringan terdistribusi ke pola jaringan clique graph, sehingga sentralisasi penyebaran informasi mempengaruhi potensi peningkatan perubahan perilaku pengguna pada jaringan komunitas. Hasil ini dapat digunakan untuk mengurangi potensi penyebaran perilaku negatif dengan memanfaatkan komunitas yang memiliki pengaruh perilaku positif dikalangan pengguna Twitter. AbstractThe COVID-19 pandemic caused a crisis that impacted behavior changes of Twitter users related to public distress experiences. Positive behavior changes could have a positive impact. However, negative behavior changes could have problems if it occur massively, such as increased user anxiety. Therefore, exploring the relationship between behavior and user community in the social networks is very important to find the implication of the COVID-19 pandemic on behavior changes of Twitter users. This study contributes to identify user behavior changes based on the collective behavior extraction model on temporal tweet activities. This mechanism used discussion topics and emotions as extraction variables to generate user behavior network. Then, the behavioral network was modeled by the DeepWalk Network Embeddings algorithm to map the behavioral closeness relationship between users and the Density Peak Clustering Algorithm to group user communities with strong behavioral similarities. Based on the analysis of 121 active users, before the COVID-19 period had 98 representative users, who were dominated by 33% of community behavior related to personal activities with happy emotions. On the other hand, after the COVID-19 period, 54 representative users were dominated by 65% of community behavior related to health with anger. Behavior changes in both periods are influenced by the transition from a distributed network pattern to a clique graph network pattern, so the centralization of information dissemination could affect the potential for increasing user behavioral changes in the community network. These findings could be used to reduce the potential for spreading negative behavior by leveraging communities with positive behavior influence among Twitter users.
Pengenalan Entitas Biomedis dalam Teks Konsultasi Kesehatan Online Berbahasa Indonesia Berbasis Arsitektur Transformers Abdillah, Abid Famasya; Purwitasari, Diana; Juanita, Safitri; Purnomo, Mauridhi Hery
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 10 No 1: Februari 2023
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2023106337

Abstract

Pengenalan entitas biomedis merupakan salah satu tahapan penting dalam ekstraksi informasi pada domain kesehatan. Untuk melakukannya, penelitian terkini banyak menggunakan model ekstraksi biomedis berbasis deep learning yang juga dikenal sebagai Biomedical NER (BioNER). Banyak penelitian menggunakan data sosial media sebagai basis data latih BioNER untuk memenuhi kebutuhan data yang besar. Di sisi lain, banyaknya topik bahasan pada sosial media membuat sumber data ini kurang representatif digunakan dalam pelatihan BioNER seiring dengan melimpahnya bias serta kurangnya data terkait biomedis. Oleh karena itu, penelitian ini mengusulkan suatu model BioNER yang telah dilatih pada situs konsultasi kesehatan online (KKO) agar memiliki representasi data medis lebih baik dibandingkan dengan  penelitian lain yang sejenis. Kontribusi utama penelitian ini adalah terbentuknya model BioNER yang dapat digunakan dalam metode ekstraksi informasi biomedis dalam Bahasa Indonesia. Model ini dibangun menggunakan arsitektur state-of-the-art Transformers sehingga mendapatkan hasil evaluasi F1 score sebesar 0.7691, mengungguli model LSTM sebesar 0.03 poin. Hasil simulasi terhadap data riil juga menunjukkan bahwa model BioNER mampu mengenali entitas biomedis secara umum meskipun dilatih pada data yang terbatas. Selain itu, dengan digunakannya model berbasis XLM-R, maka model juga memiliki kemampuan pengenalan multibahasa sehingga potensi implementasinya tidak terbatas pada entitas Bahasa Indonesia saja. Untuk mendukung penelitian lanjutan, model pengenalan entitas biomedis ini juga dapat diakses secara publik untuk di https://huggingface.co/abid/indonesia-bioner. AbstractBiomedical entity recognition is one of the important stage in the information extraction, particularly in the health domain. Recent research uses a deep learning-based biomedical extraction model known as Biomedical NER (BioNER). Due to extensive data requirement, many studies still use social media data as a BioNER training data. On the other hand, social media data is less representative because it contains a lot of bias and lack of medical representation terms as the impact of many topics discussed. Therefore, this study proposes a BioNER model that has trained on an online health consultation platform to gain a better representation of biomedical data. This model also built using the state-of-the-art Transformers architecture. Hence, its evaluation results show that this model is able to achieve an F1 score of 0.7691, outperforming the LSTM model by 0.03. Simulation results on the real data also indicate that the BioNER model is able to recognize biomedical entities in general cases despite only trained on limited data. In addition, by using an XLM-R-based model, the recognition model also has multilingual recognition capabilities. Therefore, there is a potential implementation to apply the our BioNER model beyond Indonesian biomedical entities. Our biomedical entity recognition model is also accessible at https://huggingface.co/abid/indonesia-bioner.
Easy Data Augmentation untuk Data yang Imbalance pada Konsultasi Kesehatan Daring Nur Azizah, Anisa; Falach Asy'ari, Misbachul; Wisma Dwi Prastya, Ifnu; Purwitasari, Diana
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 10 No 5: Oktober 2023
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2023107082

Abstract

Pendekatan augmentasi teks sering digunakan untuk menangani imbalance data pada kasus klasifikasi teks, seperti teks Konsultasi Kesehatan Daring (KKD), yaitu alodokter.com. Teknik oversampling dapat mengatasi kondisi skewed terhadap kelas mayoritas. Namun, augmentasi teks dapat mengubah konten dan konteks teks karena kata-kata teks tambahan yang berlebihan. Penelitian kami menyelidiki algoritma Easy Data Augmentation (EDA), yang berbasis parafrase kalimat dalam teks KKD dengan menggunakan teknik Synonym Replacement (SR), Random Insertion (RI), Random Swap (RS), dan Random Deletion (RD). Kami menggunakan Tesaurus Bahasa Indonesia untuk mengubah sinonim di EDA dan melakukan percobaan pada parameter yang dibutuhkan oleh algoritma untuk mendapatkan hasil augmentasi teks yang optimal. Kemudian, percobaan menyelidiki proses augmentasi kami menggunakan pengklasifikasi Random Forest, Naïve Bayes, dan metode berbasis peningkatan seperti XGBoost dan ADABoost, yang menghasilkan peningkatan akurasi rata-rata sebesar 0,63. Hasil parameter EDA terbaik diperoleh dengan menambahkan nilai 0,1 pada semua teknik EDA mendapatkan 88,86% dan 88,44% untuk akurasi dan nilai F1-score. Kami juga memverifikasi hasil EDA dengan mengukur koherensi teks sebelum dan sesudah augmentasi menggunakan pemodelan topik Latent Dirichlet Allocation (LDA) untuk memastikan konsistensi topik. Proses EDA dengan RI memberikan koherensi yang lebih baik sebesar 0,55 dan dapat mendukung implementasi EDA untuk menangani imbalance data, yang pada akhirnya dapat meningkatkan kinerja klasifikasi.   Abstract   The text augmentation approach is often utilized for handling imbalanced data of classifying text corpus, such as online health consultation (OHC) texts, i.e., alodokter.com. The oversampling technique can overcome the skewed condition towards majority classes. However, text augmentation could change text content and context because of excessive words of additional texts. Our work investigates the Easy Data Augmentation (EDA) algorithm, which is sentence paraphrase-based in the OHC texts that often in non-formal sentences by using techniques of synonym replacement (SR), random insertion (RI), random swap (RS), and random deletion (RD). We employ the Indonesian thesaurus for changing synonyms in the EDA and do empirical experiments on parameters required by the algorithm to obtain optimal results of text augmentation. Then, the experiments investigate our augmentation process using classifiers of Random Forest, Naïve Bayes, and boosting-based methods like XGBoost and ADABoost, which resulted in an average accuracy increase of 0.63. The best EDA parameter results were acquired by adding a value of 0.1 in all EDA techniques to get 88.86% and 88.44% for accuracy and F1-score values. We also verified the EDA results by measuring coherences of texts before and after augmentation using a topic modeling of Latent Dirichlet Allocation (LDA) to ensure topic consistency. The EDA process with RI gave better coherences of 0.55, and it could support the EDA application to handle imbalanced data, eventually improving the classification performance.
Co-Authors Abdillah, Abid Famasya Abdillah, Surya Abid Famasya Abdillah Achmad Affandi Addien Haniefardy Ade Afrian Adhi Nurilham Adi Surya Suwardi Ansyah Adillion, Ilham Gurat Adni Navastara, Dini Agus Budi Raharjo Agus Budi Raharjo Agus Zainal Arifin Agus Zainal Arifin Ahmad Syauqi Ahmad Syauqi Aida Muflichah Akwila Feliciano Akwila Feliciano Alif Akbar Fitrawan, Alif Akbar Alqis Rausanfita Aminul Wahib Aminul Wahib Aminul Wahib Apriantoni Apriantoni Apriantoni, Apriantoni Ardianto Ardianto Ariadi Retno Tri Hayati Arief Rahman Arif Fadllullah Arini Rosyadi Ario Bagus Nugroho Arrie Kurniawardhani Arya Putra Kurniawan Asiyah Nur Kholifah Atikah, Luthfi Bambang Setiawan Baskoro Adi Pratomo Baskoro, Fajar Benito, Davian Budi Pangestu Budi Rahardjo Budi Raharjo, Agus Budiyono, Yanuardhi Arief Buliali, Joko Lianto Cahyaningtyas, Zakiya Azizah Chastine Fatichah Chilyatun Nisa, Chilyatun Christian Sri kusuma Aditya, Christian Sri kusuma Cornelius Bagus Purnama Putra Damayanti, Putri Daniel Oranova Siahaan Daniel Swanjaya Dasrit Debora Kamudi Dhian Kartika Dian Saputra Dini Adni Navastara, Dini Adni Dwi Sunaryono Dwi Sunaryono Edy Sukotjo Eko Riduwan Elshe Erviana Angely Erlinda Argyanti Nugraha Erlinda Argyanti Nugraha Esti Yuniar F.X. Arunanto Fahmi Amiq Fahrur Rozi Fajar Baskoro Fajar Baskoro Falach Asy'ari, Misbachul Fandy Kuncoro Adianto Fandy Kuncoro Adianto Faried Effendy Febri Fernanda Febriliyan Samopa Fransiscus Xaverius Arunanto Galih Hendra Wibowo Ginardi, Raden Venantius Hari Glory Intani Pusposari Gurat Adillion, Ilham Gus Nanang Syaifuddiin Hadziq Fabroyir Hafidz, Abdan Hamidi, Mohammad Zaenuddin Handayani Tjandrasa Hanif Affandi Hartanto Haykal, Muhammad Farhan Herdayanto Sulistyo Putro Hilya Tsaniya Hudan Studiawan Husna, Farida Amila I Ketut Eddy Purnama I Made Satria Bimantara Ilmi, Akhmad Bakhrul Imam Santosa Indra Lukmana Irdayanti, Marina Ivonne Soejitno Juanita, Safitri Juanita, Safitri Juli Purwanto Kardawi, Muhammad Yusuf Kautsar, Faiz Kevin Christian Hadinata Kevin Christian Hadinata Khadijah F. Hayati Kurnia Aji Tritamtama Lailatul Hidayah M. Abdillah M. Abdul Wakhid Mabahist, Fahril Maheswari, Clarissa Luna Mamluatul Hani’ah Mauridhi Hery Purnomo Mirza Hamdhani Misbakhul Munir Irfan Subakti Mohammad Zaenuddin Hamidi Muhamad Nasir Muhammad Machmud Muhammad Mirza Muttaqi Nabila Puspita Firdi Nada Fitrieyatul Hikmah Nanik Suciati Narandha Arya Ranggianto Nova Rijati Novemi Uki A Novrindah Alvi Hasanah Nugraha, Raditya Hari Nur Azizah, Anisa Nur Hayatin Nurilham, Adhi Oktaviandra Pradita Putri Oktaviandra Pradita Putri, Oktaviandra Pradita Paramastri Ardiningrum Putu Praba Santika Putu Utami Andarini S. Putu Yuwono Kusmawan Raihan, Muhammad Rangga Kusuma Dinata Rangga Kusuma Dinata Ratih Nur Esti Anggraini, Ratih Nur Esti Rendra Dwi Lingga P. Resti Ludviani Rio Indralaksono Rizal Setya Perdana Rizka Sholikah Rizka Wakhidatus Sholikah Rizka Wakhidatus Sholikah, Rizka Wakhidatus Rizqa Afthoni Rozi, Fahrur RR. Ella Evrita Hestiandari Rully Soelaiman Rully Sulaiman Ryfial Azhar, Ryfial Safhira Maharani Safhira Maharani Safitri, Julia Salim Bin Usman Salim Bin Usman Salsabila Mazya Permataning Tyas Salsabila Salsabila Satrio Hadi Wijoyo Satrio Verdianto Satrio Verdianto Sembiring, Fred Erick Septiyan Andika Isanta Septiyan Andika Isanta Septiyawan Rosetya Wardhana Septiyawan Rosetya Wardhana Sherly Rosa Anggraeni Sherly Rosa Anggraeni Sidharta, Bayu Adjie Sihombing, Drigo Alexander Siti Rochimah Surya Sumpeno Suwida, Katon Syadza Anggraini Tanzilal Mustaqim Tegar Rachman Muzzammil Tesa Eranti Putri Tri Arief Sardjono Tsabbit Aqdami Mukhtar, Tsabbit Aqdami Umy Rizqi Verdianto, Satrio Victor Hariadi Vit Zuraida Wakhid, Muhammad Abdul Wardhana, Septiyawan R. Wardhana, Septiyawan Rosetya Wicaksono, Farhan Wijayanti Nurul Khotimah Wijoyo, Satrio Hadi Windy Deftia Mertiana Wisma Dwi Prastya, Ifnu Wulansari Wulansari Yasinta Romadhona Yatestha, Anak Agung Yoga Yustiawan Yonathan, Vincent Yos Nugroho Yudhi Purwananto Yufis Azhar Yuhana, Umi Laili Yulia Niza Yulia Niza Yulian Findawati Yunianto, Dika R. Zahrul Zizki Dinanto Zakiya Azizah Cahyaningtyas Zakiya Azizah Cahyaningtyas