Kebocoran data pribadi menjadi isu yang semakin serius, terutama ketika data yang bocor telah dimodifikasi sebagian untuk menghindari pencocokan langsung dengan sumber aslinya. Studi ini mengembangkan pendekatan fuzzy yang didasarkan pada pemetaan algoritmik setiap atribut (field-algorithm pairing) serta skema pembobotan berdasarkan relevansi, untuk mendukung pencocokan data many-to-one antara data yang bocor dan basis data asli. Empat algoritma digunakan: Levenshtein, Jaro-Winkler, Token Sort Ratio, dan Cosine Similarity, yang dipilih berdasarkan karakteristik semantik dari atribut. Eksperimen dilakukan pada 10.000 data sintetik dengan berbagai skenario modifikasi, meliputi data bersih, modifikasi ringan, dan modifikasi berat.Hasil menunjukkan kinerja tinggi pada data bersih maupun modifikasi ringan (F1-score 0.90–1.00), tetapi menurun secara signifikan pada modifikasi berat (F1-score 0.10–0.45). Pendekatan ini menawarkan solusi yang ringan namun efektif untuk tahap awal verifikasi identitas dalam investigasi kebocoran data, sekaligus membuka peluang untuk pengembangan lebih lanjut melalui kombinasi algoritma dan penyesuaian ambang batas pencocokan yang adaptif.
Copyrights © 2025