Claim Missing Document
Check
Articles

Opinion Classification on IMDb Reviews Using Naïve Bayes Algorithm Putri, Amiliya; Umam, Khothibul; Mustofa, Hery
Journal of Applied Informatics and Computing Vol. 9 No. 6 (2025): December 2025
Publisher : Politeknik Negeri Batam

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30871/jaic.v9i6.9831

Abstract

This study aims to classify user opinions on IMDb movie reviews using the Multinomial Naïve Bayes algorithm. The dataset consists of 50,000 reviews, evenly distributed between 25,000 positive and 25,000 negative reviews. The preprocessing stage includes cleaning, case folding, stopword removal, tokenization, and lemmatization using the NLTK library. Text features are represented through the TF-IDF method to capture the significance of each word in the documents. The Multinomial Naïve Bayes model was trained using the hold-out validation technique with an 80:20 split for training and testing data. Hyperparameter tuning of α (Laplace smoothing) was conducted to enhance model stability and accuracy. The model’s performance was evaluated using accuracy, precision, recall, and F1-score metrics, supported by a confusion matrix visualization. The results show that the model achieved an accuracy of 87%, with precision of 87.9%, recall of 85.4%, and an F1-score of 86.6%. In comparison, Logistic Regression as a baseline algorithm achieved an accuracy of 91%. Nevertheless, the Naïve Bayes algorithm remains competitive and computationally efficient for large-scale text data, making it highly relevant for sentiment analysis of movie reviews.
Comparative Analysis of Penetration Testing Frameworks: OWASP, PTES, and NIST SP 800-115 for Detecting Web Application Vulnerabilities Imtias, Muhamad Bunan; Umam, Khothibul; Mustofa, Hery; Subowo, Moh Hadi
Journal of Applied Informatics and Computing Vol. 9 No. 6 (2025): December 2025
Publisher : Politeknik Negeri Batam

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30871/jaic.v9i6.9846

Abstract

Web application security faces increasingly complex challenges as digital architectures evolve, necessitating the selection of appropriate and effective penetration testing methods. This study presents a comparative analysis of the OWASP Testing Guide, PTES, and NIST SP 800-115 frameworks in detecting web application vulnerabilities. Through experiments on DVWA and OWASP Juice Shop, the frameworks were evaluated based on detection speed, vulnerability count, and severity. The results highlight a clear trade-off: OWASP proved the most efficient (85 minutes average, 59 total vulnerabilities), making it ideal for rapid assessments. PTES demonstrated the most comprehensive technical depth (63 vulnerabilities, highest severity) but required the most time, while NIST SP 800-115 (49 vulnerabilities) excelled in compliance and risk management integration. The study recommends selecting OWASP for efficiency, PTES for deep technical audits, and NIST for regulatory alignment.
Analisis Performa Metode Machine Learning dalam Mengidentifikasi Penyebab Ulasan Rating Satu Aplikasi MyBluebird Azziizah, Almira Farradinda; Mustofa, Hery; Umam, Khothibul; Handayani, Maya Rini
Jurnal Ilmiah Global Education Vol. 6 No. 4 (2025): JURNAL ILMIAH GLOBAL EDUCATION
Publisher : LPPM Institut Pendidikan Nusantara Global

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.55681/jige.v6i4.4704

Abstract

This study addresses the increasing prevalence of negative user reviews for the MyBluebird ride-hailing application, focusing on the identification and classification of the main causes of one-star ratings. The research aims to compare the effectiveness of Support Vector Machine, Random Forest, and Naïve Bayes algorithms in classifying user complaints. Employing a quantitative experimental approach, the study utilizes a dataset of 1,399 one-star reviews collected purposively from Google Play Store. Data preprocessing includes cleaning, tokenization, and feature extraction using TF-IDF. The classification models are evaluated using accuracy, precision, recall, and F1-score metrics. Results indicate that Random Forest achieves the highest accuracy (90%), outperforming the other algorithms, with bugs/errors as the most frequent complaint, followed by driver performance, other issues, and price. The study concludes that machine learning-based classification can effectively map user dissatisfaction, though data imbalance remains a limitation. Future research should apply data balancing techniques and expand the dataset for broader generalization. Practical implications suggest that developers can utilize automated classification to improve service quality and address user needs more efficient.
Public Opinion on The MBG Program: Comparative Evaluation of InSet and VADER Lexicon Labeling Using SVM on Platform X Zakiyah, Na'ilah Puti; Umam, Khothibul; Mahfudh, Adzhal Arwani
Journal of Applied Informatics and Computing Vol. 9 No. 6 (2025): December 2025
Publisher : Politeknik Negeri Batam

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.30871/jaic.v9i6.9978

Abstract

This study aims to examine public opinion regarding the MBG program on platform X by utilizing the Support Vector Machine (SVM) algorithm using two sentiment labeling methods, namely InSet Lexicon and VADER Lexicon. The data was then divided into 70% for training and 30% for testing, and extracted using Term Frequency–Inverse Document Frequency (TF-IDF) to convert the text into numerical representations. The SVM model was trained on both labeled data sets to compare their performance based on evaluation metrics such as accuracy, precision, recall, and F1 score. The results show that labeling with VADER produces a more dominant number of neutral sentiments, while InSet Lexicon produces a more balanced distribution between positive, negative, and neutral sentiments. At the modeling stage, SVM with InSet labels achieved an accuracy of 80.10%, with precision of 0.81, recall of 0.80, and an F1 score of 0.79. Meanwhile, SVM with VADER labels achieved an accuracy of 93.83%, precision of 0.94, recall of 0.94, and an F1 score of 0.93. Although VADER showed higher accuracy values, InSet Lexicon is considered more efficient and relevant for sentiment analysis in Indonesia because it is capable of producing more balanced and contextual classifications.
Evaluasi Kinerja Random Forest, SVM, dan Transformer untuk Klasifikasi Komentar Judi Online di Youtube Arroyan, Devina; Handayani, Maya Rini; Umam, Khothibul; Ulinuha, Masy Ari
JUSTIN (Jurnal Sistem dan Teknologi Informasi) Vol 14, No 1 (2026)
Publisher : Jurusan Informatika Universitas Tanjungpura

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26418/justin.v14i1.94059

Abstract

Maraknya komentar bermuatan promosi judi online di platform YouTube menimbulkan kekhawatiran terhadap kenyamanan dan keamanan digital, khususnya bagi pengguna muda. Penelitian ini bertujuan mengevaluasi kinerja tiga metode klasifikasi teks dalam mendeteksi komentar judi online berbahasa Indonesia, yaitu Transformer (IndoBERT), Support Vector Machine (SVM), dan Random Forest. Dataset yang digunakan terdiri dari 5.000 komentar hasil ekstraksi dari beberapa video YouTube yang kemudian melalui proses pelabelan manual dan prapemrosesan teks. Proses evaluasi dilakukan menggunakan skema pembagian data latih–uji sebesar 80:20 dengan metrik akurasi, precision, recall, dan F1-score sebagai ukuran performa. Hasil menunjukkan bahwa IndoBERT memberikan performa terbaik dengan akurasi 98,70% dan F1-score 0,98, lebih tinggi dibandingkan SVM (88,85%) dan Random Forest (79,62%). Studi ini memiliki keterbatasan pada jumlah dan keragaman dataset yang masih terbatas, sehingga performa model berpotensi berubah ketika diterapkan pada skala data yang lebih luas atau domain komentar lain. Penelitian lanjutan dapat mempertimbangkan penambahan data dari berbagai kategori konten YouTube serta penerapan teknik augmentasi data untuk meningkatkan generalisasi model.
Analisis komparatif kinerja HAProxy dan Zevenet pada infrastruktur web server Bare-Metal Linux Nursafaat, Maulachusnan; Mustofa, Hery; Yuniarti, Wenty Dwi; Umam, Khothibul
AITI Vol 23 No 1 (2026)
Publisher : Fakultas Teknologi Informasi Universitas Kristen Satya Wacana

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24246/aiti.v23i1.106-116

Abstract

As systems demand high speed, stability, and the ability to handle large volumes of traffic, selecting an appropriate load-balancing solution becomes a critical aspect of infrastructure design. This study aims to compare the performance of two open-source load balancers, HAProxy and Zevenet, implemented on a Linux-based bare-metal web server infrastructure. The experiment was conducted using two identical backend servers and the wrk benchmarking tool, configured for five-minute tests, 1000 concurrent connections, and twelve repetitions per platform. The evaluation metrics included average latency, request throughput, and the number of timeout errors during the testing period. The results show that HAProxy achieved lower average latency (261.97 ms), higher throughput (1076.68 RPS), and fewer timeout errors (37,742) than Zevenet. While Zevenet offers a more user-friendly graphical interface, HAProxy proved more efficient and stable under high traffic. This study provides practical insights for implementing effective load balancing in non-virtualized systems with limited resources and high-performance demands.
DETEKSI CYBERBULLYING MULTIKELAS BERKINERJA TINGGI: ENSEMBLE ROBERTA-LARGE DENGAN PRESISI CAMPURAN Jinan, Muhammad Syifaaul; Handayani, Maya Rini; Ulinuha, Masy Ari; Umam, Khothibul
JIPI (Jurnal Ilmiah Penelitian dan Pembelajaran Informatika) Vol 10, No 3 (2025)
Publisher : STKIP PGRI Tulungagung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29100/jipi.v10i3.8056

Abstract

Isu cyberbullying yang terus berkembang di lingkungan digital telah menjadi perhatian global serius, menimbulkan dampak negatif signifikan dan menyoroti kebutuhan mendesak akan sistem deteksi otomatis. Tujuan primer penelitian ini adalah mengembangkan dan mengevaluasi sistem klasifikasi cyberbullying multikelas yang efektif, mampu mengidentifikasi kelas-kelas age, ethnicity, gender, dan religion, sekaligus membedakannya dari konten not_cyberbullying dan other_cyberbullying. Desain penelitian ini adalah eksperimental, berfokus pada fine-tuning model bahasa besar untuk tugas klasifikasi teks. Metodologi yang diterapkan melibatkan fine-tuning model RoBERTa-Large menggunakan dataset terlabel multikelas sebanyak 47.692 tweet. Untuk meningkatkan robustisitas dan generalisasi model, digunakan teknik ensemble learning melalui soft voting dari tiga model RoBERTa-Large yang dilatih dengan seed yang berbeda. Pelatihan dilakukan dengan presisi campuran (FP16) untuk efisiensi komputasi. Hasil utama menunjukkan bahwa model ensemble ini mencapai kinerja yang solid dan kompetitif pada test set untuk deteksi cyberbullying multikelas, dengan Akurasi 0.87 dan F1-Score (Weighted) sebesar 0.86. Model menunjukkan kinerja yang sangat baik pada kelas-kelas age, ethnicity, gender, dan religion tersebut, namun masih menghadapi tantangan pada klasifikasi kelas not_cyberbullying dan other_cyberbullying. Kesimpulannya, sistem ini membuktikan efektivitas signifikan dari RoBERTa-Large dalam konfigurasi ensemble untuk deteksi cyberbullying multikelas, menunjukkan kemampuan deteksi yang kuat secara keseluruhan dan sangat baik pada kategori-kategori tertentu, memberikan dasar kuat untuk aplikasi pencegahan cyberbullying di dunia nyata.
OPINI PUBLIK DI MEDIA X TERHADAP PATRICK KLUIVERT SEBAGAI PELATIH TIMNAS INDONESIA YANG BARU DENGAN METODE NAÏVE BAYES Febrianto, Bagus; Handayani, Maya Rini; Wibowo, Nur Cahyo Hendro; Umam, Khothibul
JIPI (Jurnal Ilmiah Penelitian dan Pembelajaran Informatika) Vol 10, No 3 (2025)
Publisher : STKIP PGRI Tulungagung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29100/jipi.v10i3.8145

Abstract

Hasil dari percobaan ini digunakan untuk menentukan persepsi publik terhadap penunjukan Patrick Kluivert sebagai pelatih baru Tim Nasional Sepak Bola Indonesia menggunakan opini komentar Masyarakat Indonesia yaitu analisis sentimen. Dataset diperoleh dari media digital X, melalui teknik crawling dengan API X, dengan periode pengambilan data dari 8 Februari hingga 24 Maret 2025. Sebanyak 3.162 tweet yang relevan berhasil dihimpun dan selanjutnya dianalisis dengan metode algoritma Multinomial Naïve Bayes. Proses analisis ini mempunyai beberapa tingkat tahapan: praproses dataset teks, labelan sentimen, serta pemodelan klasifikasi. Sentimen dibagi ke dalam 3 kelas, yaitu Netral, positif, dan Negatif. Dengan uji coba ini kita tahu bahwa mayoritas opini publik bersifat netral (77,2%), disusul sentimen positif (11,8%) dan negatif (10,9%). Model mencapai akurasi sebesar 95,2% pada data latih dan 82,5% pada data uji. Namun, performa klasifikasi terhadap kelas minoritas (positif dan negatif) masih dapat ditingkatkan, khususnya dari aspek recall. Temuan ini mengindikasikan pentingnya upaya penyeimbangan data serta optimalisasi algoritma untuk meningkatkan akurasi model terhadap data yang tidak seimbang.
PENERAPAN METODE SUPPORT VECTOR MACHINE DALAM MENGKLASIFIKASIKAN BERITA POLITIK : FAKTA VS HOAKS Maulana, Nikmal; Handayani, Maya Rini; Yuniarti, Wenty Dwi; Umam, Khothibul
JIPI (Jurnal Ilmiah Penelitian dan Pembelajaran Informatika) Vol 10, No 3 (2025)
Publisher : STKIP PGRI Tulungagung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.29100/jipi.v10i3.8077

Abstract

Berita hoaks di ranah politik menjadi tantangan serius dalam era digi-tal saat ini, karena dapat memengaruhi opini publik dan kestabilan so-sial. Penelitian ini bertujuan untuk membangun sistem klasifikasi otomatis yang mampu membedakan antara berita politik fakta dan hoaks. Metode yang digunakan adalah Support Vector Machine (SVM) dengan pendekatan Linear Support Vector Classification (LinearSVC), yang dikenal memiliki performa tinggi dalam menangani data teks berdimensi besar. Dataset yang digunakan terdiri dari 1.267 berita poli-tik berbahasa Inggris yang telah dilabeli sebagai “REAL” dan “FAKE”. Proses awal melibatkan pembersihan teks, tokenisasi, penghapusan stopword, dan transformasi data teks menjadi vektor numerik menggunakan TF-IDF. Model SVM kemudian dilatih dan diuji menggunakan pembagian data latih dan uji secara terstruktur. Hasil evaluasi menunjukkan bahwa model mencapai akurasi sebesar 94,24%. Selain itu, nilai precision, recall, dan f1-score masing-masing sebesar 0,94 untuk kedua kelas, yaitu berita fakta dan hoaks. Temuan ini menunjukkan bahwa metode SVM sangat efektif dalam mengklasifi-kasikan berita politik, serta berpotensi diterapkan dalam sistem deteksi hoaks berbasis teks secara otomatis. Model dan vectorizer disimpan untuk mendukung penggunaan ulang dalam aplikasi nyata. Penelitian ini memberikan kontribusi praktis dalam memitigasi penyebaran in-formasi palsu melalui teknologi kecerdasan buatan.