Abstrak - Penelitian ini membahas penerapan teknik augmentasi data audio sebagai solusi untuk mengatasi keterbatasan jumlah dataset dalam pengembangan model pembelajaran mesin pada pengenalan dan pemrosesan sinyal audio. Augmentasi data dilakukan untuk memperluas dan memperkaya variasi data tanpa perlu mengumpulkan data tambahan, dengan tujuan meningkatkan performa model. Dua metode augmentasi yang digunakan dalam penelitian ini adalah time shifting dan random gain. Time shifting dilakukan dengan menggeser sinyal audio sejauh 0,2 detik untuk menjaga kealamian suara, sementara random gain mengatur volume audio secara acak dalam rentang 0,5 hingga 1,5. Dataset yang digunakan berupa pelafalan 28 huruf hijaiyah dengan total 364 data audio dari sumber terbuka di Kaggle. Hasil augmentasi menunjukkan peningkatan variasi sinyal audio tanpa mengubah karakteristik inti suara, yang diharapkan dapat meningkatkan akurasi dan ketahanan model dalam menghadapi variasi input audio. Penelitian ini memberikan kontribusi terhadap pemanfaatan teknik augmentasi sebagai strategi efektif dalam pengolahan data audio terbatas untuk pengembangan model pembelajaran mesin yang lebih handal.Kata kunci: Augmentasi; Data; Audio; Random Gain; Time Shifting. Abstract - This paper discusses the application of audio data augmentation techniques as a solution to the limited number of datasets in the development of machine learning models in audio signal recognition and processing. The process of data augmentation involves the expansion and enrichment of data sets without the necessity of collecting additional data. The objective of this process is to enhance the performance of models. The two augmentation methods employed in this study are time shifting and random gain. Time shifting involves the adjustment of the audio signal by 0.2 seconds, a modification intended to preserve the naturalness of the sound. Random gain, on the other hand, adjusts the audio volume within the range of 0.5 to 1.5, a process that is entirely random. The dataset employed in this study consists of the pronunciation of 28 Hijaiyah letters, encompassing a total of 364 audio data points sourced from open databases on Kaggle. The augmentation results demonstrate an augmentation in audio signal variation without a concomitant alteration in the fundamental characteristics of the sound. This is expected to enhance the accuracy and robustness of the model in the face of audio input variations. This research makes a significant contribution to the field by demonstrating the efficacy of augmentation techniques as a strategy for processing limited audio data, thereby facilitating the development of more reliable machine learning models.Keywords: Audio; Data; Augmentation; Random Gain; Time Shifting.
Copyrights © 2025