Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks
2509.07756v1
cs.SD, cs.AI, cs.CV, cs.LG, eess.AS
2025-09-11
Авторы:
Friedrich Wolf-Monheim
Резюме на русском
## Контекст
Аудиоданные широко используются в различных областях, таких как музыка, речь и среды. Одним из основных задач было решение классификации аудиозаписей по категориям и классам. Для этого применяются различные методы, включая сверточные нейронные сети (CNNs). Однако существуют различия в качестве и точности классификации в зависимости от выбранных функций. Распространенные функции включают mel-scaled spectrograms, MFCC, cyclic tempograms и др. Чтобы определить, какие функции показывают лучший результат, необходимо провести подробный анализ их результатов с использованием CNN.
## Метод
Для анализа был использован диапазон функций, включая mel-scaled spectrograms, MFCC, cyclic tempograms и CQT chromagrams. Эти функции были использованы для построения многоканальных изображений в виде входных данных для сверточной нейронной сети. Набор данных ESC-50, содержащий 2000 записей, использовался для тестирования. Оценивались метрики точности, полнота, реколл и F1-меру. CNN была обучена в рамках энд-то-энд-подхода, чтобы определить качество классификации по категориям и классам.
## Результаты
По результатам экспериментов, mel-scaled spectrograms и MFCC показали лучший результат в качестве классификации по категориям и классам. Оба показали высокую точность и F1-меру. MFCC лучше всего показались для классификации по классам, в то время как spectrograms оказались эффективными в категоризации. Остальные функции (cyclic tempograms, CQT chromagrams) показали нижнее качество, заметно уступив лидерам.
## Значимость
Эти результаты имеют большую значимость для применения CNN в аудиоклассификации. Функции, эффективны в этой работе, могут стать предпочтительными для классификации в различных областях, таких как музыка, речь и среды. Особенно важно использовать MFCC для классификации по классам, так как они показали лучшие результаты. Это может улучшить качество и точность автоматических систем классификации звука.
## Выводы
В итоге, методы mel-scaled spectrograms и MFCC оказались наиболее эффективными для классификации аудиоданных по категориям и классам с использованием CNN. В будущем можно расширить исследования, включив дополнительные данные и алгоритмы, чтобы улучшить качество классификации и расширить представление о данных.
Abstract
Next to decision tree and k-nearest neighbours algorithms deep convolutional
neural networks (CNNs) are widely used to classify audio data in many domains
like music, speech or environmental sounds. To train a specific CNN various
spectral and rhythm features like mel-scaled spectrograms, mel-frequency
cepstral coefficients (MFCC), cyclic tempograms, short-time Fourier transform
(STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy
normalized statistics (CENS) chromagrams can be used as digital image input
data for the neural network. The performance of these spectral and rhythm
features for audio category level as well as audio class level classification
is investigated in detail with a deep CNN and the ESC-50 dataset with 2,000
labeled environmental audio recordings using an end-to-end deep learning
pipeline. The evaluated metrics accuracy, precision, recall and F1 score for
multiclass classification clearly show that the mel-scaled spectrograms and the
mel-frequency cepstral coefficients (MFCC) perform significantly better then
the other spectral and rhythm features investigated in this research for audio
classification tasks using deep CNNs.