Abstract: The rapid growth of the digital music industry requires accurate music genre classification systems to enhance user experience in streaming services. This study compares a domain-specific Long Short-Term Memory (LSTM) network with three Large Language Models (LLMs)—HuBERT, WavLM, and WAV2Vec 2.0—for Music Genre Classification (MGC). The LSTM model was trained using Mel-spectrograms transformed from the GTZAN dataset, while the LLMs were fine-tuned using a smaller set of raw audio samples due to computational constraints. All models were tested on datasets with identical genre labels to ensure a fair evaluation. Results show that the LSTM model achieved the highest accuracy of 97.10%, outperforming HuBERT (86.00%), WavLM (83.00%), and WAV2Vec 2.0 (80.00%). The LSTM demonstrated superior generalization and stability without overfitting, while the LLMs struggled to differentiate between genres with similar acoustic characteristics. These findings indicate that general-purpose pre-trained models, although powerful, are less effective in music-specific tasks due to domain mismatch. Therefore, incorporating music-specific features and architectures remains essential for achieving higher accuracy and reliability in automatic genre classification systems. Keywords: audio large language models; comparative deep learning; music genre classification. Abstrak: Pertumbuhan industri musik digital yang pesat menuntut sistem klasifikasi genre musik yang akurat untuk meningkatkan pengalaman pengguna dalam layanan streaming. Penelitian ini dilatarbelakangi oleh perkembangan pesat model pembelajaran mendalam, khususnya jaringan LSTM dan model bahasa berskala besar LLM seperti HuBERT, WavLM, dan WAV2Vec 2.0, yang telah menunjukkan kemampuan representasi audio yang kuat. Tujuan penelitian ini ini membandingkan jaringan Long Short-Term Memory (LSTM) khusus domain dengan tiga model Large Language Models (LLM)—HuBERT, WavLM, dan WAV2Vec 2.0—untuk tugas Klasifikasi Genre Musik (MGC). Metode penelitian melibatkan pelatihan LSTM menggunakan data Mel-spectrogram hasil transformasi dari dataset GTZAN, sementara LLM disesuaikan (fine-tuning) menggunakan data audio mentah dalam jumlah lebih kecil karena keterbatasan komputasi. Seluruh model diuji pada dataset dengan label genre yang sama untuk memastikan evaluasi yang adil. Hasil penelitian menunjukkan bahwa model LSTM mencapai akurasi tertinggi sebesar 97,10%, sedangkan model HuBERT, WavLM, dan WAV2Vec 2.0 masing-masing memperoleh 86,00%, 83,00%, dan 80,00%. Model LSTM menunjukkan kemampuan generalisasi yang lebih baik tanpa overfitting, sedangkan model LLM cenderung kesulitan membedakan genre dengan karakteristik akustik yang mirip. Kesimpulan penelitian ini adalah ketidaksesuaian domain secara signifikan membatasi performa model umum saat diterapkan pada tugas berbasis musik. Oleh karena itu, penggunaan fitur dan arsitektur khusus musik sangat penting dalam membangun sistem klasifikasi genre yang lebih akurat. Kata kunci: klasifikasi genre musik; model bahasa besar; perbandingan pembelajaran mendalam.
Copyrights © 2025