Articles
Stemming Bahasa Tetun Menggunakan Pendekatan Rule Based
Anita Guterres;
Gunawan;
Joan Santoso
Teknika Vol 8 No 2 (2019): November 2019
Publisher : Center for Research and Community Service, Institut Informatika Indonesia (IKADO) Surabaya
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.34148/teknika.v8i2.224
Stemming adalah proses yang sangat penting untuk mencari kata dasar dari sebuah kata derivatif. Inti dari proses stemming adalah menghilangkan imbuhan pada suatu kata. Stemming sangat dibutuhkan untuk proses information retrieval system. Algoritma pada proses stemming bisa berbeda-beda pada setiap bahasa di berbeda negara. Data yang digunakan adalah 176 kata dasar dalam bahasa Tetun yang merupakan bahasa asli warga negara Timor Leste. Penelitian ini bertujuan untuk merancang algoritma baru yang tepat untuk stemming bahasa Tetun. Tahap awal stemming bahasa Tetun adalah proses filterisasi untuk menghilangkan tanda baca, angka, dan kata yang tidak penting. Lalu tahap tokenisasi untuk membuat variabel yang terdiri dari satu kata. Lalu setiap kata melalui proses stemming untuk menghilangkan imbuhan awalan, akhiran, dan konfiks. Analisis dilakukan berdasarkan kasus error stemming seperti overstemming, understemming, unchanged, dan spelling exception. Hasil uji coba yang didapatkan adalah algoritma stemming bahasa Tetun menghasilkan akurasi sebesar 90.52%.
Sistem Penilaian Otomatis Jawaban Esai Menggunakan Metode GLSA
Ruslan Ruslan;
Gunawan Gunawan;
Suhatati Tjandra
Seminar Nasional Aplikasi Teknologi Informasi (SNATI) 2018
Publisher : Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Islam Indonesia
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
Sistem evaluasi merupakan salah satu cara untuk dapat mengukur kemampuan berpikir siswa terkhususnya jawaban esai. Pada umumnya bentuk evaluasi yang digunakan untuk mengukur kemampuan siswa dibagi menjadi 2(dua) kategori tes yang meliputi: 1) Multiple Choice (pilihan ganda) dan 2) Essay (jawaban uraian). Komputer sebagai sarana penting dalam proses pembelajaran tentunya akan lebih mudah dan akurat dalam melakukan penilaian pada bentuk evaluasi pilihan ganda dan jawaban singkat dibandingkan dengan evaluasi esai dikarenakan keberagaman jawaban siswa. Hal ini pulalah yang mengakibatkan penilaian dan koreksi otomatis pada jawaban esai siswa telah menjadi kajian penelitian di bidang pendidikan sejak dulu hingga kini. Pada dasarnya penelitian ini bertujuan untuk membuat aplikasi yang dapat membantu dalam melakukan penilaian jawaban soal essay secara otomatis melalui pendekatan Algoritma Generalized Latent Semantic Analysis (GLSA). Pada Algoritma ini terdapat 3 (tiga) proses utama yang meliputi preprocessing, GLSA, dan penilaian. Pada preprocessing terdapat beberapa tahapan, seperti: tokenisasi, stopword, stemming, dan term weigh. Sementara pada proses GLSA memiliki metode reduksi dimensi untuk mengambil kata-kata kunci yang dibandingkan dengan jawaban-jawaban kunci yang tersedia. Proses ini menggunakan n-gram yang berupa unigram, bigram, dan trigram sebagai tahapan kombinasi kata pada pembentukan matriks jawaban siswa dan jawaban guru. Dari proses ini, selanjutnya dibandingkan dengan tahapan penilaian melalui cosine similarity untuk memperoleh nilai siswa berdasarkan kesamaan n-gram dari jawaban siswa dan jawaban guru. Selain itu kami juga mengembangkan penelitian kami sebelumnya dengan menambahkan training esai dan melakukan evaluasi dari jawaban siswa berdasarkan data training esai. Simpulan hasil akurasi yang diperoleh adalah rata-rata untuk mata pelajaran Sejarah, Sosiologi dan Pendidikan Kewarganegaran pada jenjang Sekolah Menengah Atas (SMA) mencapai 90,39%.
Classification of Words of Wisdom in Indonesian on Twitter Using Naïve Bayes and Multinomial Naive Bayes
Andry Rachmadany;
Yuliana Melita Pranoto;
Gunawan Gunawan
Academia Open Vol 3 (2020): December
Publisher : Universitas Muhammadiyah Sidoarjo
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (11.94 KB)
|
DOI: 10.21070/acopen.3.2020.787
Quote is a sentence made with the hope that someone becomes a strong personality, an individual who always improves himself to advance and achieve success. Social media is a place for people to express their hearts to the world which is sometimes a heart expression in the form of quotes. The purpose of this study is to classify Indonesian quotes on Twitter using Naïve Bayes and Multinomial Naïve Bayes. This experiment uses text classification from Twitter data written by Twitter users whether the quotes are then classified again into 6 categories (Love, Life, Motivation, Education, Religion, Others). The language used is Indonesian. The methods used are Naive Bayes and Multinomial Naïve Bayes. Results of this experiment is a classified Indonesian quote collection web application. This classification makes it easy for users to search for quotes based on class or keyword. For example, when a user wants to search for 'motivational' quotes, this classification can be very useful.
Kajian Pemanfaatan Metode Klasifikasi Data Mining Pada Pelayanan Perpustakaan.
Gamaria Mandar;
Gunawan Gunawan
Jurnal Teknik Informatika (J-Tifa) Vol 1 No 1: September 2018
Publisher : Universitas Muhammadiyah Maluku Utara (Prodi Teknik Informatika)
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.52046/j-tifa.v1i1.117
Pemanfaatan teknik data mining diberbagai bidang pelayanan telah membawa manfaat yang cukup besar. Seperti halnya pada penerapan data mining di Perpustakaan, tak dapat diabaikan bahwasanya teknik data mining telah banyak membantu menyelesaikan permasalahan di beberapa kasus Perpustakaan baik itu menggunakan teknik klasifikasi, kluster dan aturan asosiasi. Salah satunya adalah pemanfaatan pada kasus perekomendasian buku di Perpustakaan, ketiga teknik telah memperoleh hasil yang baik dan mendukung pada berbagai kebutuhan di Perpustakaan diberbagai penelitian sebelumnya. Untuk itu pada artikel ini bermaksud mengaji kembali pemanfaatan data mining dengan menggunakan salah salah kategori data mining yaitu klasifikasi, berbagai algoritma pada klasifikasi seperti Support Vector Machine, C4.5 dan lain-lain membawa cara yang berbeda pada pelayanan di Perpustakaan, tidak hanya sekedar memberikan rekomendasi buku pada pembaca saja, bahkan secara visual sudah mampu mendekteksi gambar (gaya berjalan seseorang) melalui kamera dan menampilkan pada layar LCD buku rekomendasinya. Tak sampai disitu saja, pemanfaatan algoritma ini juga dapat memperoleh faktor-faktor penyembab kurang maksimalnya penggunaan Perpustakaan. Tujuan dari pemanfaatan teknik klasifikasi adalah untuk meningkatkan kepuasaan pelayaan pemberian rekomendasi buku pada pembaca, meningkatkan minat baca, meningkatkan efisiensi manajemen buku dan menemukan solusi-solusi terbaik guna melakukan evaluasi perbaikan layanan di Perpustakaan.
Information Extraction Berbasis Rule Untuk Soal Ujian
Stefanus Nico Soenardjo;
Gunawan Gunawan
Intelligent System and Computation Vol 2 No 1 (2020): INSYST:Journal of Intelligent System and Computation
Publisher : Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.52985/insyst.v2i1.154
Proses information extraction dapat dilakukan pada beberapa macam media, seperti artikel berita, tanya jawab dan sebagainya. Penelitian ini mencoba untuk melakukan information extraction pada media soal ujian yang dilengkapi dengan jawaban. Pendekatan pengolahan informasi yang dibahas dalam penelitian ini adalah information extraction berbasis rule. Informasi yang hendak digali adalah informasi data soal ujian beserta jawabannya. Inputan dalam penelitian ini pasangan file soal dan jawaban milik Cambridge. Ada beberapa mata pelajaran yang digunakan, yaitu Biologi, Matematika dan Ekonomi. Jenis soal yang digunakan juga ada beberapa macam, yaitu pilihan ganda dan esai. Hasil penelitian ini diharapkan bisa menjadi media pembelajaran. Penelitian dilakukan dengan menggunakan sebanyak 100 pasang data soal dan ujian. Sistem akan menerima 2 inputan file dengan format PDF. Kedua file ini merupakan pasangan soal dan jawaban. Proses yang diakukan adalah file akan dirubah menjadi 2, yaitu file HTML dan file PNG. File HTML mengandung semua teks soal dan file PNG mengandung semua gambar dari soal. Sistem akan mengambil teks dan gambar dari masing-masing soal dan jawaban berdasrkan rule yang sudah ditentukan. Penentuan rule dilakukan secara manual dengan mempelajari pola-pola data yang tedapat dalam tag HTML. Setelah proses ekstraksi, soal dan jawaban ini dipasangkan sesuai dengan nomor urutnya masing-masing. Pasangan soal dan jawaban ini kemudian akan disimpan ke dalam database. Dari hasil penelitian, tingkat akurasi yang didapatkan adalah sekitar 46%. Kendala utama yang dihadapi adalah format soal dan jawaban yang tidak strandar sehingga menimbulkan kesulitan dalam proses ekstraksi informasi.
Ekstraksi Informasi Berbasis Rule untuk Proceeding, Jurnal, dan Technical Report dengan Memanfaatkan Attribut Font dan Paragraf
Christian Aditya Santoso;
Gunawan
Intelligent System and Computation Vol 2 No 2 (2020): INSYST:Journal of Intelligent System and Computation
Publisher : Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.52985/insyst.v2i2.163
Digital library merupakan solusi yang baik untuk dunia edukasi. Hal ini disebabkan karena buku yang sudah berevolusi menjadi digital. Awalnya dalam bentuk fisik sekarang sudah dalam bentuk digital dengan ekstensi PDF. Namun untuk membangun sebuah digital library merupakan system yang besar dan kompleks, sehingga diperlukan bagian yang banyak. Penelitian ini mengambil satu bagian dari pengembangan system digital library, yaitu pada bagian preprocessing atau persiapan sumber data digital library. Penyedian sumber data digital library sangat luas dan banyak. Fokus dari penelitian ini adalah penyedian data dimana data tersebut adalah jurnal, prosiding dan paper. Dokumen tersebut dipilih karena dinilai memiliki manfaat yang besar untuk edukasi karena peneliti mendokumentasikan hasil penelitian pada dokumen tersebut. Dalam 1 paper tentunya ada bagian yang menjadi kunci yang menggambarkan intisari dari penelitian tersebut. Pada penelitian ini diambil informasi Judul, Abstract, Keyword dan penulis. Informasi tersebut dipercaya mampu menggambarkan intisari dari suatu paper. Proses dilakukan dengan terbagi menjadi 3 bagian besar yaitu konversi file mentah dengan ekstensi PDF menjadi file JSON, Proses pengambilan fitur, Proses ekstraksi informasi. Ekstraksi informasi pada penelitian ini menggunakan kumpulan rule yang diimplementasikan pada software. Rule di dapat dari hasil pengamatan selama penelitian. Hasil dari penelitian dilakukan perhitungan dengan memberikan bobot dimana hal yang terberat memiliki pengaruh yang lebih besar. Ketelitian yang dicapai adalah 81.32% dimana dari hipotesa awal pada ketelitain 80%. Namun masih banyak pengembangan yang bisa dilakukan agar lebih baik lagi pada penelitian selanjutnya
Deteksi Citra Pornografi Memanfaatkan Deep Convolutional Neural Network
Kevin Setiono;
Yosi Kristian;
Gunawan Gunawan
Intelligent System and Computation Vol 3 No 1 (2021): INSYST: Journal of Intelligent System and Computation
Publisher : Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.52985/insyst.v3i1.172
Internet merupakan salah satu sumber informasi yang sangat mudah diakses dan sangat lengkap pada zaman sekarang ini. Dari banyaknya konten tersebut terdapat konten pornografi yang meresahkan dan memberikan dampak buruk pada perkembangan anak-anak. Hingga tahun 2020 pemblokiran konten pornografi menyumbang 70 persen dibandingkan konten negative lainnya. Metode untuk mencegah/memblokir konten pornografi ada berbagai macam mulai dari memblokir websitenya hingga mendeteksi berdasarkan citra yang ada. Penelitian ini akan mencoba mendeteksi citra pornografi dengan bantuan Deep Convolutional Neural Network. Pembuatan model menggunakan transfer learning hingga fine tuned fine transfer learning dan mencoba model-model state of the art. Penelitian ini menghasilkan model yang mampu mendeteksi citra pornografi dengan akurasi 78%. Selain memiliki akurasi yang cukup tinggi model ini juga mampu mendeteksi bagian-bagian intim dari wanita yang menjadi fitur dari citra pornografi. Kemampuan mendeteksi fitur tersebut telah diujicoba dengan mengubah model yang digunakan penelitian ini sebagai detektor objek pada citra pornografi.
Disjoint Community Detection pada Network Kegiatan Kemahasiswaan di ISTTS Menggunakan Fast Greedy dan Walktrap
Mikhael Setiawan;
Gunawan;
F.X.Ferdinandus
Intelligent System and Computation Vol 3 No 1 (2021): INSYST: Journal of Intelligent System and Computation
Publisher : Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.52985/insyst.v3i1.175
Disjoint community detection bertujuan untuk menemukan sebuah komunitas pada network dengan melakukan pemisahan. Pada penelitian ini, disjoint akan dilakukan pada network kegiatan kemahasiswaan di ISTTS. Metode disjoint community detection yang digunakan adalah fast greedy dan walktrap algorithm. Data kegiatan kemahasiswaan berisi mengenai mahasiswa bersama-sama dengan mahasiswa lainnya mengikuti kegiatan kemahasiswaan apa saja. Setelah disjoint berhasil dilakukan, maka akan dihitung nilai closeness centrality dari setiap mahasiswa, dimana pada akhirnya akan dihitung correlation coefficient dengan IPK mahasiswa tersebut untuk mencari hubungan antara centrality mahasiswa dengan IPK mereka. Hasil closeness centrality ini selanjutnya di rata-rata untuk semua hasil algoritma untuk melihat bagaimana korelasi closeness centrality dengan ipk mahasiswa tersebut. Uji coba dilakukan dengan membentuk gml dari kombinasi filter, yang menghasilkan sekitar 2527 gml dengan nilai akhir korelasi adalah 62 - 63% weak positif dengan diikuti 16-18% moderate positif, dan 14-16% tidak berkorelasi sama sekali. Akhirnya dapat disimpulkan bahwa closeness centrality dalam sebuah komunitasnya, hanya berpengaruh secara weak positif dengan ipk mahasiswa tersebut.
Centroid Based Classifier With TF – IDF – ICF for Classfication of Student’s Complaint at Appliation E-Complaint in Muhammadiyah University of Sidoarjo
Mochamad Alfan Rosid;
Gunawan Gunawan;
Edwin Pramana
JEEE-U (Journal of Electrical and Electronic Engineering-UMSIDA) Vol 1 No 1 (2015): April
Publisher : Muhammadiyah University, Sidoarjo
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.21070/jeee-u.v1i1.23
Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai metode antara lain metode K-Nearest Neighbor, Naïve Bayes, dan Centroid Base Classifier, atau decision tree classification.Pada penelitian ini, klasifikasi keluhan mahasiswa dilakukan dengan metode centroid based classifier dan dengan fitur TF-IDF-ICF, Ada lima tahap yang dilakukan untuk mendapatkan hasil klasifikasi. Tahap pengambilan data keluhan kemudian dilanjutkan dengan tahap preprosesing yaitu mempersiapkan data yang tidak terstruktur sehingga siap digunakan untuk proses selanjutnya, kemudian dilanjutkan dengan proses pembagian data, data dibagi menjadi dua macam yaitu data latih dan data uji, tahap selanjutnya yaitu tahap pelatihan untuk menghasilkan model klasifikasi dan tahap terakhir adalah tahap pengujian yaitu menguji model klasifikasi yang telah dibuat pada tahap pelatihan terhadap data uji. Keluhan untuk pengujian akan diambilkan dari database aplikasi e-complaint Universitas Muhammadiyah Sidoarjo. Adapun hasil uji coba menunjukkan bahwa klasifikasi keluhan dengan algoritma centroid based classifier dan dengan fitur TF-IDF-ICF memiliki rata-rata akurasi yang cukup tinggi yaitu 79.5%. Nilai akurasi akan meningkat dengan meningkatnya data latih dan efesiensi sistem semakin menurun dengan meningkatnya data latih.
Analisis Pendapat Masyarakat terhadap Berita Kesehatan Indonesia menggunakan Pemodelan Kalimat berbasis LSTM
Esther Irawati Setiawan;
Adriel Ferdianto;
Joan Santoso;
Yosi Kristian;
Gunawan Gunawan;
Surya Sumpeno;
Mauridhi Hery Purnomo
Jurnal Nasional Teknik Elektro dan Teknologi Informasi Vol 9 No 1: Februari 2020
Publisher : Departemen Teknik Elektro dan Teknologi Informasi, Fakultas Teknik, Universitas Gadjah Mada
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (1263.215 KB)
|
DOI: 10.22146/jnteti.v9i1.115
The uncertainty of health news content, which is spread on social media, raises the need for validation of the truth. One validation approach is to consider the opinion or attitudes of most people, which is called a stance on a topic, whether they support, oppose, or being neutral. This paper proposes a stance analysis model to classify the relationship between sentences so that it can recognize the correlation of the opinion of the writer in the headline of the problem claim. The proposed model uses several Long Short-Term Memory (LSTM), which represent the interrelationship of news for analysis of the relationship between a claim with other news. The formation of word representation vectors is carried out in conjunction with LSTM-based stance classification training. Sentence embedding is done to get the vector representation of sentences with LSTM. Each word in a sentence occupies one time-step in LSTM and the output of the last word is taken as a sentence representation. Based on the results of trials with the Indonesian health-related dataset that was built for this study, the proposed stance classification model was able to achieve an average F1-score value of 71%, with the supporting value 69%, opposing as much as 70%, and neutral 74%.