Paduan suara merupakan entitas seni vokal kompleks yang mengandalkan keselarasan antara kategori vokal (Sopran, Alto, Tenor, Bass) untuk mencapai harmoni optimal. Namun, klasifikasi suara yang dilakukan secara manual oleh pelatih seringkali terhambat oleh subjektivitas perseptual dan inefisiensi waktu. Penelitian ini bertujuan untuk mengimplementasikan pendekatan Machine Learning berbasis Convolutional Neural Network (CNN) dengan arsitektur MobileNetV2 guna mengotomatisasi klasifikasi vokal secara objektif. Metodologi yang digunakan adalah Research and Development (R&D) dengan ekstraksi fitur akustik Mel-Frequency Cepstral Coefficients (MFCC). Sinyal audio diproses dengan sampling rate 22.050 Hz dan dikonversi menjadi citra spektrogram 224x224 piksel untuk memenuhi standar input MobileNetV2. Hasil eksperimen pada dataset vokal wanita (51 Sopran, 44 Alto) menunjukkan tingkat akurasi sebesar 78,1%, dengan nilai Precision 85%, Recall 64,2%, dan F1-Score 73,2%. Efisiensi komputasi MobileNetV2 melalui Inverted Residual Blocks dan Linear Bottlenecks (Sandler et al., 2018) memungkinkan inferensi cepat pada backend Flask. Evaluasi kebergunaan melalui kuesioner PSSUQ (Lewis, 1995) menghasilkan skor kepuasan keseluruhan sebesar 83,56%, yang menempatkan sistem dalam kategori "Sangat Efektif". Meskipun terdapat tantangan pada nilai Recall akibat kemiripan fitur spektral pada zona transisi vokal, sistem ini terbukti mampu mentransformasi paradigma klasifikasi dari berbasis intuisi ( intuition-driven ) menjadi berbasis data (data-driven), yang secara signifikan mereduksi waktu persiapan komposisi paduan suara.