Ancaman dari serangan phishing yang terus meningkat dan berkembang pesat menuntut adanya metode deteksi yang lebih dinamis dan efisien dibandingkan pendekatan tradisional berbasis blacklist yang tidak efektif terhadap serangan baru. Selain itu, penggunaan machine learning dengan metode supervised learning-pun memiliki keterbatasan dalam menghadapi data yang tidak seimbang (class imbalance) dan adanya serangan zero-day. Penelitian ini bertujuan untuk menganalisis efektivitas dari algoritma Isolation Forest sebagai metode unspervised anomaly detection untuk mengidentifikasi tautan website phishing, serta menguji pengaruh hyperparameter n_trees dan sample size terhadap kinerjanya. Penelitian ini menggunakan pendekatan kuantitatif eksperimental pada dataset PhiUSIIL Phishing URL. Model akan dievaluasi menggunakan skema k-fold cross validation dengan dua metode pencarian threshold yang berbeda (TPR-based dan contamination-based), serta diuji pada kondisi data latih seimbang dan tidak seimbang. Hasil penelitian ini menunjukkan bahwa Isolation Forest efektif dalam melakukan deteksi, terutama saat dilatih menggunakan data yang tidak seimbang yang memiliki proporsi data normal jauh lebih banyak daripada data phishing. Kinerja terbaik yang dicapai menghasilkan F1-Score 0,93, sensitivity 0,95, dan specificity 0,92. Selain itu, hyperparameter sample_size terbukti berpengaruh signifikan terhadap performa, sedangkan n_trees berperan dalam menstabilkan hasil prediksi. Lalu, dibandingkan dengan One-Class SVM, Isolation Forest terbukti lebih unggul dalam hal F1-Score, specificity, dan efisiensi waktu komputasi. Untuk itu, ditarik kesimpulan bahwa algoritma Isolation Forest merupakan salah satu solusi yang akurat, efisien, dan andal dalam mendeteksi tautan phishing dengan mendekatan anomaly detection.
Copyrights © 2025