Claim Missing Document
Check
Articles

Found 9 Documents
Search

Stemming Bahasa Tetun Menggunakan Pendekatan Rule Based Anita Guterres; Gunawan; Joan Santoso
Teknika Vol 8 No 2 (2019): November 2019
Publisher : Center for Research and Community Service, Institut Informatika Indonesia (IKADO) Surabaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.34148/teknika.v8i2.224

Abstract

Stemming adalah proses yang sangat penting untuk mencari kata dasar dari sebuah kata derivatif. Inti dari proses stemming adalah menghilangkan imbuhan pada suatu kata. Stemming sangat dibutuhkan untuk proses information retrieval system. Algoritma pada proses stemming bisa berbeda-beda pada setiap bahasa di berbeda negara. Data yang digunakan adalah 176 kata dasar dalam bahasa Tetun yang merupakan bahasa asli warga negara Timor Leste. Penelitian ini bertujuan untuk merancang algoritma baru yang tepat untuk stemming bahasa Tetun. Tahap awal stemming bahasa Tetun adalah proses filterisasi untuk menghilangkan tanda baca, angka, dan kata yang tidak penting. Lalu tahap tokenisasi untuk membuat variabel yang terdiri dari satu kata. Lalu setiap kata melalui proses stemming untuk menghilangkan imbuhan awalan, akhiran, dan konfiks. Analisis dilakukan berdasarkan kasus error stemming seperti overstemming, understemming, unchanged, dan spelling exception. Hasil uji coba yang didapatkan adalah algoritma stemming bahasa Tetun menghasilkan akurasi sebesar 90.52%.
Sistem Penilaian Otomatis Jawaban Esai Menggunakan Metode GLSA Ruslan Ruslan; Gunawan Gunawan; Suhatati Tjandra
Seminar Nasional Aplikasi Teknologi Informasi (SNATI) 2018
Publisher : Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Islam Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Sistem evaluasi merupakan salah satu cara untuk dapat mengukur kemampuan berpikir siswa terkhususnya jawaban esai. Pada umumnya bentuk evaluasi yang digunakan untuk mengukur kemampuan siswa dibagi menjadi 2(dua) kategori tes yang meliputi: 1) Multiple Choice (pilihan ganda) dan 2) Essay (jawaban uraian). Komputer sebagai sarana penting dalam proses pembelajaran tentunya akan lebih mudah dan akurat dalam melakukan penilaian pada bentuk evaluasi pilihan ganda dan jawaban singkat dibandingkan dengan evaluasi esai dikarenakan keberagaman jawaban siswa. Hal ini pulalah yang mengakibatkan penilaian dan koreksi otomatis pada jawaban esai siswa telah menjadi kajian penelitian di bidang pendidikan sejak dulu hingga kini. Pada dasarnya penelitian ini bertujuan untuk membuat aplikasi yang dapat membantu dalam melakukan penilaian jawaban soal essay secara otomatis melalui pendekatan Algoritma Generalized Latent Semantic Analysis (GLSA). Pada Algoritma ini terdapat 3 (tiga) proses utama yang meliputi preprocessing, GLSA, dan penilaian. Pada preprocessing terdapat beberapa tahapan, seperti: tokenisasi, stopword, stemming, dan term weigh. Sementara pada proses GLSA memiliki metode reduksi dimensi untuk mengambil kata-kata kunci yang dibandingkan dengan jawaban-jawaban kunci yang tersedia. Proses ini menggunakan n-gram yang berupa unigram, bigram, dan trigram sebagai tahapan kombinasi kata pada pembentukan matriks jawaban siswa dan jawaban guru. Dari proses ini, selanjutnya dibandingkan dengan tahapan penilaian melalui cosine similarity untuk memperoleh nilai siswa berdasarkan kesamaan n-gram dari jawaban siswa dan jawaban guru. Selain itu kami juga mengembangkan penelitian kami sebelumnya dengan menambahkan training esai dan melakukan evaluasi dari jawaban siswa berdasarkan data training esai. Simpulan hasil akurasi yang diperoleh adalah rata-rata untuk mata pelajaran Sejarah, Sosiologi dan Pendidikan Kewarganegaran pada jenjang Sekolah Menengah Atas (SMA) mencapai 90,39%.
Classification of Words of Wisdom in Indonesian on Twitter Using Naïve Bayes and Multinomial Naive Bayes Andry Rachmadany; Yuliana Melita Pranoto; Gunawan Gunawan
Academia Open Vol 3 (2020): December
Publisher : Universitas Muhammadiyah Sidoarjo

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (11.94 KB) | DOI: 10.21070/acopen.3.2020.787

Abstract

Quote is a sentence made with the hope that someone becomes a strong personality, an individual who always improves himself to advance and achieve success. Social media is a place for people to express their hearts to the world which is sometimes a heart expression in the form of quotes. The purpose of this study is to classify Indonesian quotes on Twitter using Naïve Bayes and Multinomial Naïve Bayes. This experiment uses text classification from Twitter data written by Twitter users whether the quotes are then classified again into 6 categories (Love, Life, Motivation, Education, Religion, Others). The language used is Indonesian. The methods used are Naive Bayes and Multinomial Naïve Bayes. Results of this experiment is a classified Indonesian quote collection web application. This classification makes it easy for users to search for quotes based on class or keyword. For example, when a user wants to search for 'motivational' quotes, this classification can be very useful.
Kajian Pemanfaatan Metode Klasifikasi Data Mining Pada Pelayanan Perpustakaan. Gamaria Mandar; Gunawan Gunawan
Jurnal Teknik Informatika (J-Tifa) Vol 1 No 1: September 2018
Publisher : Universitas Muhammadiyah Maluku Utara (Prodi Teknik Informatika)

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.52046/j-tifa.v1i1.117

Abstract

Pemanfaatan teknik data mining diberbagai bidang pelayanan telah membawa manfaat yang cukup besar. Seperti halnya pada penerapan data mining di Perpustakaan, tak dapat diabaikan bahwasanya teknik data mining telah banyak membantu menyelesaikan permasalahan di beberapa kasus Perpustakaan baik itu menggunakan teknik klasifikasi, kluster dan aturan asosiasi. Salah satunya adalah pemanfaatan pada kasus perekomendasian buku di Perpustakaan, ketiga teknik telah memperoleh hasil yang baik dan mendukung pada berbagai kebutuhan di Perpustakaan diberbagai penelitian sebelumnya. Untuk itu pada artikel ini bermaksud mengaji kembali pemanfaatan data mining dengan menggunakan salah salah kategori data mining yaitu klasifikasi, berbagai algoritma pada klasifikasi seperti Support Vector Machine, C4.5 dan lain-lain membawa cara yang berbeda pada pelayanan di Perpustakaan, tidak hanya sekedar memberikan rekomendasi buku pada pembaca saja, bahkan secara visual sudah mampu mendekteksi gambar (gaya berjalan seseorang) melalui kamera dan menampilkan pada layar LCD buku rekomendasinya. Tak sampai disitu saja, pemanfaatan algoritma ini juga dapat memperoleh faktor-faktor penyembab kurang maksimalnya penggunaan Perpustakaan. Tujuan dari pemanfaatan teknik klasifikasi adalah untuk meningkatkan kepuasaan pelayaan pemberian rekomendasi buku pada pembaca, meningkatkan minat baca, meningkatkan efisiensi manajemen buku dan menemukan solusi-solusi terbaik guna melakukan evaluasi perbaikan layanan di Perpustakaan.
Centroid Based Classifier With TF – IDF – ICF for Classfication of Student’s Complaint at Appliation E-Complaint in Muhammadiyah University of Sidoarjo Mochamad Alfan Rosid; Gunawan Gunawan; Edwin Pramana
JEEE-U (Journal of Electrical and Electronic Engineering-UMSIDA) Vol 1 No 1 (2015): April
Publisher : Muhammadiyah University, Sidoarjo

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.21070/jeee-u.v1i1.23

Abstract

Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai metode antara lain metode K-Nearest Neighbor, Naïve Bayes, dan Centroid Base Classifier, atau decision tree classification.Pada penelitian ini, klasifikasi keluhan mahasiswa dilakukan dengan metode centroid based classifier dan dengan fitur TF-IDF-ICF, Ada lima tahap yang dilakukan untuk mendapatkan hasil klasifikasi. Tahap pengambilan data keluhan kemudian dilanjutkan dengan tahap preprosesing yaitu mempersiapkan data yang tidak terstruktur sehingga siap digunakan untuk proses selanjutnya, kemudian dilanjutkan dengan proses pembagian data, data dibagi menjadi dua macam yaitu data latih dan data uji, tahap selanjutnya yaitu tahap pelatihan untuk menghasilkan model klasifikasi dan tahap terakhir adalah tahap pengujian yaitu menguji model klasifikasi yang telah dibuat pada tahap pelatihan terhadap data uji. Keluhan untuk pengujian akan diambilkan dari database aplikasi e-complaint Universitas Muhammadiyah Sidoarjo. Adapun hasil uji coba menunjukkan bahwa klasifikasi keluhan dengan algoritma centroid based classifier dan dengan fitur TF-IDF-ICF memiliki rata-rata akurasi yang cukup tinggi yaitu 79.5%. Nilai akurasi akan meningkat dengan meningkatnya data latih dan efesiensi sistem semakin menurun dengan meningkatnya data latih.
Analisis Pendapat Masyarakat terhadap Berita Kesehatan Indonesia menggunakan Pemodelan Kalimat berbasis LSTM Esther Irawati Setiawan; Adriel Ferdianto; Joan Santoso; Yosi Kristian; Gunawan Gunawan; Surya Sumpeno; Mauridhi Hery Purnomo
Jurnal Nasional Teknik Elektro dan Teknologi Informasi Vol 9 No 1: Februari 2020
Publisher : Departemen Teknik Elektro dan Teknologi Informasi, Fakultas Teknik, Universitas Gadjah Mada

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1263.215 KB) | DOI: 10.22146/jnteti.v9i1.115

Abstract

The uncertainty of health news content, which is spread on social media, raises the need for validation of the truth. One validation approach is to consider the opinion or attitudes of most people, which is called a stance on a topic, whether they support, oppose, or being neutral. This paper proposes a stance analysis model to classify the relationship between sentences so that it can recognize the correlation of the opinion of the writer in the headline of the problem claim. The proposed model uses several Long Short-Term Memory (LSTM), which represent the interrelationship of news for analysis of the relationship between a claim with other news. The formation of word representation vectors is carried out in conjunction with LSTM-based stance classification training. Sentence embedding is done to get the vector representation of sentences with LSTM. Each word in a sentence occupies one time-step in LSTM and the output of the last word is taken as a sentence representation. Based on the results of trials with the Indonesian health-related dataset that was built for this study, the proposed stance classification model was able to achieve an average F1-score value of 71%, with the supporting value 69%, opposing as much as 70%, and neutral 74%.
Indonesian Language Term Extraction using Multi-Task Neural Network Joan Santoso; Esther Irawati Setiawan; Fransiskus Xaverius Ferdinandus; Gunawan Gunawan; Leonel Hernandez
Knowledge Engineering and Data Science Vol 5, No 2 (2022)
Publisher : Universitas Negeri Malang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.17977/um018v5i22022p160-167

Abstract

The rapidly expanding size of data makes it difficult to extricate information and store it as computerized knowledge. Relation extraction and term extraction play a crucial role in resolving this issue. Automatically finding a concealed relationship between terms that appear in the text can help people build computer-based knowledge more quickly. Term extraction is required as one of the components because identifying terms that play a significant role in the text is the essential step before determining their relationship. We propose an end-to-end system capable of extracting terms from text to address this Indonesian language issue. Our method combines two multilayer perceptron neural networks to perform Part-of-Speech (PoS) labeling and Noun Phrase Chunking. Our models were trained as a joint model to solve this problem. Our proposed method, with an f-score of 86.80%, can be considered a state-of-the-art algorithm for performing term extraction in the Indonesian Language using noun phrase chunking.
Pengenalan Varietas Ikan Koi Berdasarkan Foto Menggunakan Simple Linear Iterative Clustering Superpixel Segmentation dan Convolutional Neural Andy Hermawan; Ilham Zaeni; Aji Wibawa; Gunawan Gunawan; Yosi Kristian; Shandy Darmawan
Jurnal Inovasi Teknologi dan Edukasi Teknik Vol. 1 No. 11 (2021)
Publisher : Universitas Ngeri Malang

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (533.052 KB)

Abstract

Object segmentation and image recognition are two computer vision tasks which are still being developed until today. Simple Linear Iterative Clustering is an algorithm which is very popular to help with object segmentation tasks because it is the best in terms of result and speed. In image recognition, Convolutional Neural Networks are also one of the best approaches for any kind of recognition tasks because of their efficiency and the ability to recognize objects like animals do. Koi fish have become a very interesting object to be researched because they are difficult to segment and distinguished between their varieties. The dataset consists of 600 images of Koi fish from 10 different varieties. The Koi fish’s recognition process begins with generating super pixels for the input image. The next step is to merge all neighborhood super pixels by their color similarities. After this step, almost all the background pixels should be detected so that the actual object, the Koi fish, can be segmented. The segmented image is then given to a Convolutional Neural Networks, to learn any important features which distinguish every Koi fish variety from one another. A trained Convolutional Neural Networks can then give a Koi fish variety prediction for an input image. Based on a series of segmentation and model tests performed, it is proven that the segmentation technique, which uses Simple Linear Iterative Clustering in this project, performs exceptionally well across almost all the images in the dataset. The model produced from this project is also able to classify a wide range of Koi fish varieties accurately at 90 percent accuracy with segmentation and 87 percent without segmentation. Segmentasi dan pengenalan objek pada gambar masih merupakan dua buah masalah pada computer vision yang masih terus diteliti dan dikembangkan hingga saat ini. Simple Linear Iterative Clustering merupakan salah satu algoritma segmentasi superpixel yang cukup populer untuk membantu melakukan segmentasi objek karena memiliki hasil superpixel yang baik dan dapat berjalan dengan cepat. Untuk pengenalan objek, Convolutional Neural Networks masih merupakan salah satu yang terbaik untuk berbagai masalah karena efisien dan mampu mengenali objek pada gambar layaknya hewan mengenali objek yang dilihatnya. Ikan koi menjadi sebuah objek yang menarik untuk diteliti karena sulit untuk disegmentasi dan dikenali jenisnya bahkan oleh manusia. Dataset yang digunakan berisi 600 gambar yang terdiri dari 10 varietas ikan koi. Pengenalan ikan koi diawali dengan melakukan generate superpixel pada gambar input, kemudian menggabungkan superpixel-superpixel terdekat yang memiliki warna yang mirip. Dengan cara ini, maka hampir seluruh pixel background dapat dideteksi sehingga objek ikan koi dapat disegmentasi. Gambar hasil segmentasi kemudian dilatihkan ke Convolutional Neural Networks yang akan mempelajari fitur-fitur penting pada setiap jenis ikan koi yang diteliti. Convolutional Neural Networks yang telah dilatih kemudian dapat memberikan prediksi varietas ikan koi dari sebuah input gambar. Berdasarkan hasil uji coba segmentasi dan model yang digunakan, dibuktikan bahwa teknik segmentasi yang memanfaatkan Simple Linear Iterative Clustering yang dilakukan berhasil untuk hampir seluruh gambar pada dataset. Model yang dibuat mampu mengklasifikasikan varietas ikan koi dengan akurasi 90 persen dengan segmentasi dan 87 persen tanpa segmentasi.
Maximum Marginal Relevance and Vector Space Model for Summarizing Students' Final Project Abstracts Gunawan Gunawan; Fitria Fitria; Esther Irawati Setiawan; Kimiya Fujisawa
Knowledge Engineering and Data Science Vol 6, No 1 (2023)
Publisher : Universitas Negeri Malang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.17977/um018v6i12023p57-68

Abstract

Automatic summarization is reducing a text document with a computer program to create a summary that retains the essential parts of the original document. Automatic summarization is necessary to deal with information overload, and the amount of data is increasing. A summary is needed to get the contents of the article briefly. A summary is an effective way to present extended information in a concise form of the main contents of an article, and the aim is to tell the reader the essence of a central idea. The simple concept of a summary is to take an essential part of the entire contents of the article. Which then presents it back in summary form. The steps in this research will start with the user selecting or searching for text documents that will be summarized with keywords in the abstract as a query. The proposed approach performs text preprocessing for documents: sentence breaking, case folding, word tokenizing, filtering, and stemming. The results of the preprocessed text are weighted by term frequency-inverse document frequency (tf-idf), then weighted for query relevance using the vector space model and sentence similarity using cosine similarity. The next stage is maximum marginal relevance for sentence extraction. The proposed approach provides comprehensive summarization compared with another approach. The test results are compared with manual summaries, which produce an average precision of 88%, recall of 61%, and f-measure of 70%.