Claim Missing Document
Check
Articles

Found 16 Documents
Search

Automatic essay scoring: leveraging Jaccard coefficient and Cosine similarity with n-gram variation in vector space model approach Dwi Cahyani, Andharini; Fathoni, Moh. Wildan; Rachman, Fika Hastarita; Basuki, Ari; Amin, Salman; Khotimah, Bain Khusnul
IAES International Journal of Artificial Intelligence (IJ-AI) Vol 14, No 5: October 2025
Publisher : Institute of Advanced Engineering and Science

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.11591/ijai.v14.i5.pp3599-3612

Abstract

Automated essay scoring (AES) is a vital area of research aiming to provide efficient and accurate assessment tools for evaluating written content. This study investigates the effectiveness of two popular similarity metrics, Jaccard coefficient, and Cosine similarity, within the context of vector space models (VSM) employing unigram, bigram, and trigram representations. The data used in this research was obtained from the formative essay of the citizenship education subject in a junior high school. Each essay undergoes preprocessing to extract features using n-gram models, followed by vectorization to transform text data into numerical representations. Then, similarity scores are computed between essays using both Jaccard coefficient and Cosine similarity. The performance of the system is evaluated by analyzing the root mean square error (RMSE), which measures the difference between the scores given by human graders and those generated by the system. The result shows that the Cosine similarity outperformed the Jaccard coefficient. In terms of n-gram, unigrams have lower RMSE compared to bigrams and trigrams.
Perancangan Media Pembelajaran Batik Podhek di Kampung Eduwisata Berbasis Multimedia Khotimah, Bain Khusnul; Syakur, Muhammad Ali; Maghfiroh, Putri Lailatul; Hasanah, Nur
Jurnal Pemberdayaan Masyarakat dan Komunitas Vol 1, No 2: 2024
Publisher : STAI Nurul Islam Mojokerto

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.52620/jpmk.v1i2.106

Abstract

Media merupakan sarana dalam penyampaian materi pembelajaran. Media yang tepat untuk kegiatan belajar mengajar membatik untuk siswa ataupun masyarakat pada umumnya yaitu dengan menggunakan media animasi. Tujuan pembuatan animasi adalah agar pengunjung mudah memahaminya. Selama ini kurangnya penyampaian materi oleh pembina batik membuat kegiatan membatik tidak maksimal. Hal ini disebabkan proses belajar membatik masih terpusat pada contoh langsung di lapangan dan berupa program magang. Sehingga bagi pengunjung mengalami kesulitan dalam belajar karena mereka sekedar mendengarkan hal-hal yang disampaikan oleh presenter dan terkendala waktu. Salah satu software yang diaplikasikan untuk pembuatan video animasi yaitu Articulate Storyline 3, yaitu dengan mengkombinasikan semua komponen teks, gambar, audio, animasi dan video tentang tata cara pembuatan batik Podhek. Metode yang digunakan adalah gabungan dari Coreldraw dan Corel Video Studio. Metode Coreldraw untuk mengedit gambar/foto, sedangkan Corel Video Studio untuk mengedit video dan audio dan semua data digabungkan ke dalam software Articulate Storyline 3. Data diolah manjadi kesatuan aplikasi dalam media pembelajaran berbasis multimedia. Kegiatan ini diharapkan dapat mempermudah proses belajar membatik agar lebih cepat dan jelas dalam memahami materi tersebut.
Type-2 Fuzzy ANP and TOPSIS methods based on trapezoid Fuzzy number with a new metric Kustiyahningsih, Yeni; Rahmanita, Eza; Khotimah, Bain Khusnul; Purnama, Jaka
International Journal of Advances in Intelligent Informatics Vol 10, No 2 (2024): May 2024
Publisher : Universitas Ahmad Dahlan

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26555/ijain.v10i2.1285

Abstract

Modeling and linguistic representation in the form Interval Type-2 Fuzzy have better accuracy than Type-1 Fuzzy. The type-2 fuzzy set involves more uncertainty than the type-1 fuzzy set. The degree of fuzzy membership is used to explain uncertainty and ambiguity in the real world. This study presents the type-2 Fuzzy Analytic Network Process (ANP) method to determine the weight of each attribute based on the level of interest and the extension method of type-2 Fuzzy TOPSIS to handle problems based on the value of the fuzzy type-2 attribute. Decision-making is based on the assessment of several experts called Multi-Criteria Group Decision Making (MCGDM), using type-2 Fuzzy geometric mean aggregation function. The membership function in this research is type-2 fuzzy based on the trapezoid. The contribution is a hybrid method Type-2 Fuzzy TOPSIS with Fuzzy Type-2 ANP group-based with new metric intervals on fuzzy type-2 for decision making. The results are a hybrid type-2 FANP and FTOPSIS decision-making model to support the best decision-making. Based on a comparison of the accuracy of trapezoid model 1, model 2, and model 3, the best accuracy result is model 3, which is 84%. The research benefits by presenting a hybrid Type-2 Fuzzy TOPSIS and ANP method that improves decision-making accuracy and better handling uncertainty and ambiguity than Type-1 Fuzzy systems.
Optimasi Bobot K-Means Clustering untuk Mengatasi Missing Value dengan Menggunakan Algoritma Genetica Khotimah, Bain Khusnul; Syarief, Muhammad; Miswanto, Miswanto; Suprajitno, Herry
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 8 No 4: Agustus 2021
Publisher : Fakultas Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.25126/jtiik.2021844912

Abstract

Nilai yang hilang membutuhkan preprosesing dengan teknik imputasi untuk menghasilkan data yang lengkap. Proses imputasi membutuhkan initial bobot yang sesuai, karena data yang dihasilkan adalah data pengganti. Pemilihan nilai bobot yang optimal dan kesesuaian nilai K pada metode K-Means Imputation (KMI) merupakan masalah besar, sehingga menimbulkan error semakin meningkat. Model gabungan algoritma genetika (GA) dan KMI atau yang dikenal GAKMI digunakan untuk menentukan bobot optimal pada setiap cluster data yang mengandung nilai yang hilang. Algoritma genetika digunakan untuk memilih bobot dengan menggunakan pengkodean bilangan riel pada kromosom. Model hybrid GA dan KMI dengan pengelompokan menggunakan jumlah jarak Euclidian setiap titik data dari pusat clusternya. Pengukuran kinerja algoritma menggunakan fungsi kebugaran optimal dengan nilai MSE terkecil. Hasil percobaan data hepatitis menunjukkan bahwa GA efisien dalam menemukan nilai bobot awal optimal dari ruang pencarian yang besar. Hasil perhitungan menggunakan nilai MSE =0.044 pada K=3 dan replika ke-5 menunjukkan kinerja GAKMI menghasilkan tingkat kesalahan yang rendah untuk data hepatitis dengan atribut campuran. Hasil penelitian dengan menggunakan pengujian tingkat imputasi menunjukkan algoritma GAKMI menghasilkan nilai r = 0.526 lebih tinggi dibandingkan dengan metode lainnya. Penelitian ini menunjukkan GAKMI menghasilkan nilai r yang lebih tinggi dibandingkan metode imputasi lainnya sehingga dianggap paling baik dibandingkan teknik imputasi secara umum.  AbstractMissing values require preprocessing techniques as imputation to produce complete data. Complete data imputation results require the appropriate initial weights, because the resulting data is replacement data. The choice of the optimal weighting value and the suitability of the network nodes in the K-Means Imputation (KMI) method are big problems, causing increasing errors. The combined model of Genetic Algorithm (GA) and KMI is used to determine the optimal weights for each data cluster containing missing values. Genetic algorithm is used to select weights by using real number coding on chromosomes. GA is applied to the KMI using clustering calculated using the sum of the Euclidean distances of each data point from the center of the cluster. Performance measurement algorithms using the fitness function optimally with the smallest MSE value. The results of the hepatitis data experiment show that GA is efficient in finding the optimal initial weight value from a large search space. The results of calculations using the MSE value = 0.04 for K = 3 and the 5th replication. So, GAKMI resulted in a low error rate for mixed data. The results of research using imputation level testing performed GAKMI  produced r = 0.526 higher than the other methods. Thus, the higher the r value, the best for the imputation technique.
ANALISIS SENTIMEN TERHADAP KARAPAN SAPI DI TWITTER MENGGUNAKAN METODE K-MEANS DAN SUPPORT VECTOR MACHINE (SVM) Rani, Zalzabila; Khotimah, Bain Khusnul
Jurnal Informatika dan Teknik Elektro Terapan Vol. 13 No. 1 (2025)
Publisher : Universitas Lampung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.23960/jitet.v13i1.5685

Abstract

Perkembangan teknologi dan internet telah mengubah cara komunikasi masyarakat, dengan media sosial menjadi platform utama. Twitter, yang memiliki 18,45 juta pengguna di Indonesia pada tahun 2022, digunakan dalam penelitian ini untuk menganalisis sentimen publik terkait Karapan Sapi, kompetisi balap sapi tradisional di Madura. Penelitian ini bertujuan untuk mengidentifikasi sentimen publik terhadap Karapan Sapi, menyebarkan efektivitas kombinasi metode K-Means dan Support Vector Machine (SVM), serta menerapkan Synthetic Minority Oversampling Technique (SMOTE) untuk menangani ke regresi data. Sebanyak 647 ulasan Twitter berbahasa Indonesia dikumpulkan melalui crawling berbasis Python dan diproses menggunakan text preprocessing. Metode K-Means mengelompokkan ulasan menjadi tiga cluster: aspek budaya Karapan Sapi, olahraga tradisional, dan keterkaitan dengan pihak militer atau pemerintah. SMOTE menyelesaikan keseimbangan sentimen data, meningkatkan kinerja model pembelajaran mesin pada kelas minoritas. Model SVM dengan parameter optimal (kernel linear, C=1.0, gamma=1.0) menghasilkan akurasi 92%, meskipun masih menunjukkan ketelitian performa antar kelas. Penelitian ini membuktikan efektivitas kombinasi K-Means dan SVM, serta pentingnya SMOTE dalam analisis sentimen berbasis Twitter, khususnya untuk budaya lokal seperti Karapan Sapi.
Klasifikasi Penyakit Hepatitis C dengan Menggunakan K-Nearest Neighbor Yusfila, Fathul Qorib; Khotimah, Bain Khusnul; Anamisa, Devie Rosa; Ni’mah, Ana Tsalitsatun
Sains Data Jurnal Studi Matematika dan Teknologi Vol 3, No 1: January - June 2025
Publisher : Sekolah Tinggi Agama Islam Nurul Islam Mojokerto

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.52620/sainsdata.v3i1.205

Abstract

Hepatitis merupakan kondisi peradangan pada hati yang disebabkan oleh berbagai jenis virus, baik yang menular maupun tidak menular, dan dapat menimbulkan komplikasi serius hingga kematian. Terdapat lima tipe utama virus hepatitis, yaitu A, B, C, D, dan E. Penelitian ini bertujuan untuk mengklasifikasikan penyakit Hepatitis C menggunakan algoritma K-Nearest Neighbor (KNN) dengan pendekatan penanganan data tidak seimbang melalui teknik Random Oversampling. Dataset yang digunakan adalah HCV dari UCI Machine Learning Repository, yang terdiri dari 615 data dengan 14 fitur dan 5 kategori kelas. Karena data bersifat tidak seimbang, dilakukan peningkatan jumlah data pada kelas minoritas menggunakan Random Oversampling. Proses evaluasi dilakukan dengan membandingkan performa KNN tanpa dan dengan oversampling, serta menentukan nilai K terbaik melalui skenario pengujian menggunakan 5-fold Cross Validation. Hasil menunjukkan bahwa KNN tanpa oversampling menghasilkan akurasi tertinggi sebesar 94% pada nilai K=3, sementara dengan oversampling akurasi meningkat menjadi 96,70% pada nilai K yang sama. Dengan demikian, dapat disimpulkan bahwa penerapan Random Oversampling mampu meningkatkan performa klasifikasi algoritma KNN pada data Hepatitis C yang tidak seimbang.