Improving Audio Event Recognition with Consistency Regularization
2509.10391v1
cs.SD, cs.AI
2025-09-16
Авторы:
Shanmuka Sadhu, Weiran Wang
Резюме на русском
## Контекст
Аудио-события — это уникальные звуковые сигналы, которые могут носить различные смысловые нагрузки, важные для многих приложений, таких как детекция кризисных ситуаций, распознавание речи и анализ среды. Однако их подробное распознавание остается сложной задачей, особенно при недостатке данных. Основная проблема заключается в том, что традиционные аудио-классификаторы чувствительны к данным и их структуре, что приводит к понижению точности распознавания в условиях недостатка данных. Настоящая работа посвящена исследованию новых подходов к улучшению распознавания аудио-событий, в частности к применению **consistency regularization (CR)**, которая доказала свою эффективность в аудио-данных.
## Метод
Предлагаемый подход основывается на идее **consistency regularization**, которая подразумевает то, что модель должна давать схожие предсказания для различных аugmented версий инпут-данных. Мы используем этот подход в сочетании с аудио-данными, чтобы улучшить распознавание. Более того, мы расширяем эту идею на ситуацию, когда имеется дополнительный набор большого количества необученных данных. Для реализации мы использовали модель **EfficientNet-B0** с подготовленными обучающими данными. Для эффективной регуляризации, мы применяем различные аугментации звуковых сигналов, такие как **time masking**, **frequency masking**, и **pitch shifting**, чтобы создавать различные версии исходных данных.
## Результаты
Мы проверили наш вариант решения на **AudioSet**, одной из крупнейших баз данных аудио-событий. Мы провели апливационные исследования, которые показали, что CR улучшает распознавание аудио-событий в случае с малыми наборами данных (около 20k сэмплов). Мы также проверили метод на больших данных (1.8M сэмплов) и показали, что он позволяет достичь значительной повышения точности. Кроме того, мы рассмотрели случай **semi-supervised learning**, где мы использовали 20k лабеленджных сэмплов и 1.8M необученных сэмплов, что позволило достичь точности выше, чем при обучении только на лабеленджных данных.
## Значимость
Предложенный подход может быть применен в различных задачах, связанных с распознаванием аудио-событий, в том числе в ситуациях, когда данных для обучения мало. Он также может быть полезен в задачах **semi-supervised learning**, когда доступно большое количество необученных данных. Метод демонстрирует свою эффективность в условиях недостатка данных, что повышает его значимость в сложных и реальных условиях.
## Выводы
Мы показали, что **consistency regularization** способствует улучшению распознавания аудио-событий, особенно в условиях недостатка данных. Метод может быть расширен на различные задачи распознавания аудио-событий и применен в случаях, когда доступ
Abstract
Consistency regularization (CR), which enforces agreement between model
predictions on augmented views, has found recent benefits in automatic speech
recognition [1]. In this paper, we propose the use of consistency
regularization for audio event recognition, and demonstrate its effectiveness
on AudioSet. With extensive ablation studies for both small ($\sim$20k) and
large ($\sim$1.8M) supervised training sets, we show that CR brings consistent
improvement over supervised baselines which already heavily utilize data
augmentation, and CR using stronger augmentation and multiple augmentations
leads to additional gain for the small training set. Furthermore, we extend the
use of CR into the semi-supervised setup with 20K labeled samples and 1.8M
unlabeled samples, and obtain performance improvement over our best model
trained on the small set.
Ссылки и действия
Дополнительные ресурсы: