Improving Audio Event Recognition with Consistency Regularization

2509.10391v1 cs.SD, cs.AI 2025-09-16

Авторы:

Shanmuka Sadhu, Weiran Wang

Резюме на русском

## Контекст Аудио-события — это уникальные звуковые сигналы, которые могут носить различные смысловые нагрузки, важные для многих приложений, таких как детекция кризисных ситуаций, распознавание речи и анализ среды. Однако их подробное распознавание остается сложной задачей, особенно при недостатке данных. Основная проблема заключается в том, что традиционные аудио-классификаторы чувствительны к данным и их структуре, что приводит к понижению точности распознавания в условиях недостатка данных. Настоящая работа посвящена исследованию новых подходов к улучшению распознавания аудио-событий, в частности к применению **consistency regularization (CR)**, которая доказала свою эффективность в аудио-данных. ## Метод Предлагаемый подход основывается на идее **consistency regularization**, которая подразумевает то, что модель должна давать схожие предсказания для различных аugmented версий инпут-данных. Мы используем этот подход в сочетании с аудио-данными, чтобы улучшить распознавание. Более того, мы расширяем эту идею на ситуацию, когда имеется дополнительный набор большого количества необученных данных. Для реализации мы использовали модель **EfficientNet-B0** с подготовленными обучающими данными. Для эффективной регуляризации, мы применяем различные аугментации звуковых сигналов, такие как **time masking**, **frequency masking**, и **pitch shifting**, чтобы создавать различные версии исходных данных. ## Результаты Мы проверили наш вариант решения на **AudioSet**, одной из крупнейших баз данных аудио-событий. Мы провели апливационные исследования, которые показали, что CR улучшает распознавание аудио-событий в случае с малыми наборами данных (около 20k сэмплов). Мы также проверили метод на больших данных (1.8M сэмплов) и показали, что он позволяет достичь значительной повышения точности. Кроме того, мы рассмотрели случай **semi-supervised learning**, где мы использовали 20k лабеленджных сэмплов и 1.8M необученных сэмплов, что позволило достичь точности выше, чем при обучении только на лабеленджных данных. ## Значимость Предложенный подход может быть применен в различных задачах, связанных с распознаванием аудио-событий, в том числе в ситуациях, когда данных для обучения мало. Он также может быть полезен в задачах **semi-supervised learning**, когда доступно большое количество необученных данных. Метод демонстрирует свою эффективность в условиях недостатка данных, что повышает его значимость в сложных и реальных условиях. ## Выводы Мы показали, что **consistency regularization** способствует улучшению распознавания аудио-событий, особенно в условиях недостатка данных. Метод может быть расширен на различные задачи распознавания аудио-событий и применен в случаях, когда доступ

Abstract

Consistency regularization (CR), which enforces agreement between model predictions on augmented views, has found recent benefits in automatic speech recognition [1]. In this paper, we propose the use of consistency regularization for audio event recognition, and demonstrate its effectiveness on AudioSet. With extensive ablation studies for both small ($\sim$20k) and large ($\sim$1.8M) supervised training sets, we show that CR brings consistent improvement over supervised baselines which already heavily utilize data augmentation, and CR using stronger augmentation and multiple augmentations leads to additional gain for the small training set. Furthermore, we extend the use of CR into the semi-supervised setup with 20K labeled samples and 1.8M unlabeled samples, and obtain performance improvement over our best model trained on the small set.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Audio Event Recognition with Consistency Regularization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация