Keamanan sistem informasi merupakan aspek krusial dalam menjaga kerahasiaan, integritas, dan ketersediaan data pada layanan berbasis web. Penelitian ini menganalisis efektivitas model Bidirectional Encoder Representations from Transformers (BERT) dalam mendeteksi intrusi berbasis log data web server. Dataset yang digunakan berupa web server access logs berlabel dari Kaggle dengan 9.279.228 entri normal dan 2.956 entri attack. Eksperimen dilakukan dengan dua pendekatan: (1) baseline pipeline menggunakan embedding BERT dan reduksi dimensi Manual Incremental PCA sebelum klasifikasi dengan Logistic Regression dan Linear Support Vector Classification, serta (2) fine-tuning pipeline yang melatih ulang model BERT. Untuk mengatasi ketidakseimbangan data, diterapkan Custom SMOTE pada baseline dan upsampling teks pada fine-tuning. Hasil menunjukkan model BERT yang di-fine-tune memberikan F1-score macro average 0,9995 pada rasio 1:10, lebih baik dibanding baseline (0,9976). Penerapan SMOTE dan upsampling terbukti meningkatkan sensitivitas terhadap kelas minoritas. Penelitian ini menyimpulkan bahwa pendekatan berbasis BERT efektif dalam memahami konteks semantik log web dan meningkatkan akurasi deteksi intrusi pada data tidak seimbang.
Copyrights © 2026