Abstract: Anomalous sound detection is essential for industrial predictive maintenance, as machine failures often originate from subtle acoustic changes during operation. However, high background noise and limitations of conventional Convolutional Neural Networks (CNN) reduce detection reliability. This study proposes a 1D-CNN-based anomaly detection framework with multi-view feature fusion and temporal segmentation to enhance detection performance. The approach combines MFCC, Log-Mel Spectrogram, and Chroma STFT features, while temporal segmentation divides audio signals into 5-second segments to better capture transient anomalies. Experiments on the MIMII dataset under varying Signal-to-Noise Ratio (SNR) conditions show that MFCC and Log-Mel fusion achieves the best performance, with 97.90% accuracy and ROC-AUC of 0.9789. The model maintains accuracy above 90% at −6 dB, demonstrating strong robustness in noisy industrial environments. Keywords: industrial anomaly detection; 1D-CNN; multi-view feature fusion; temporal segmentation; MIMII dataset. Abstrak: Deteksi anomali suara merupakan komponen penting dalam sistem pemeliharaan prediktif industri, karena kegagalan mesin sering diawali oleh perubahan akustik yang bersifat halus selama proses operasi. Namun, tingkat kebisingan yang tinggi serta keterbatasan arsitektur Convolutional Neural Network (CNN) konvensional dapat menurunkan keandalan deteksi. Penelitian ini bertujuan mengusulkan kerangka deteksi anomali berbasis 1D-CNN yang mengintegrasikan strategi fusi fitur multi-view dan segmentasi temporal untuk meningkatkan kinerja deteksi. Pendekatan yang digunakan menggabungkan fitur MFCC, Log-Mel Spectrogram dan Chroma STFT, sementara teknik temporal splitting membagi sinyal audio menjadi segmen berdurasi 5 detik untuk menangkap anomali yang bersifat sementara. Eksperimen menggunakan dataset MIMII pada berbagai kondisi Signal-to-Noise Ratio (SNR) menunjukkan bahwa kombinasi MFCC dan Log-Mel Spectrogram menghasilkan kinerja terbaik dengan akurasi 97,90% dan ROC-AUC sebesar 0,9789. Model juga mempertahankan akurasi di atas 90% pada kondisi kebisingan ekstrem (−6 dB) yang menunjukkan ketahanan yang baik dalam lingkungan industri yang bising. Kata kunci: deteksi anomali industri; 1D-CNN; fusi fitur multi-view; segmentasi temporal; dataset MIMII