Teks medis yang didapatkan dalam bentuk narasi sering kali memiliki sifat yang tidak terstruktur, sehingga diperlukan solusi yang dapat dimanfaatkan secara optimal untuk klasifikasi teks medis tersebut. Permasalahan ini menjadi landasan dilakukannya penelitian yang bertujuan untuk mengevaluasi performa berbagai algoritma klasifikasi dalam mengolah narasi keluhan pasien menggunakan sejumlah pendekatan representasi teks. Dataset yang digunakan terdiri dari deskripsi medis yang telah diberi label secara seimbang dan melalui proses pra-pemrosesan untuk membersihkan serta menstandarkan teks sebelum dimasukkan ke dalam model pembelajaran mesin. Empat metode representasi teks, yaitu Bag of Words, TF-IDF, Word2Vec, dan Hybrid, digunakan untuk mengubah teks menjadi fitur numerik. Lima algoritma klasifikasi diuji dan dibandingkan berdasarkan metrik evaluasi meliputi akurasi, precision, recall, dan F1-score. Hasil penelitian menunjukkan bahwa pendekatan berbasis frekuensi seperti Bag of Words dan TF-IDF, ketika dipadukan dengan algoritma linier, mampu memberikan performa terbaik. Selain itu, proses tuning parameter terbukti penting dalam meningkatkan hasil klasifikasi. Penelitian ini menegaskan bahwa pemilihan kombinasi representasi fitur dan algoritma yang tepat sangat mempengaruhi keberhasilan klasifikasi teks medis berbasis narasi.
Copyrights © 2025