## Контекст
Аудио-события — это уникальные звуковые сигналы, которые могут носить различные смысловые нагрузки, важные для многих приложений, таких как детекция кризисных ситуаций, распознавание речи и анализ среды. Однако их подробное распознавание остается сложной задачей, особенно при недостатке данных. Основная проблема заключается в том, что традиционные аудио-классификаторы чувствительны к данным и их структуре, что приводит к понижению точности распознавания в условиях недостатка данных. Настоящая работа посвящена исследованию новых подходов к улучшению распознавания аудио-событий, в частности к применению **consistency regularization (CR)**, которая доказала свою эффективность в аудио-данных.
## Метод
Предлагаемый подход основывается на идее **consistency regularization**, которая подразумевает то, что модель должна давать схожие предсказания для различных аugmented версий инпут-данных. Мы используем этот подход в сочетании с аудио-данными, чтобы улучшить распознавание. Более того, мы расширяем эту идею на ситуацию, когда имеется дополнительный набор большого количества необученных данных. Для реализации мы использовали модель **EfficientNet-B0** с подготовленными обучающими данными. Для эффективной регуляризации, мы применяем различные аугментации звуковых сигналов, такие как **time masking**, **frequency masking**, и **pitch shifting**, чтобы создавать различные версии исходных данных.
## Результаты
Мы проверили наш вариант решения на **AudioSet**, одной из крупнейших баз данных аудио-событий. Мы провели апливационные исследования, которые показали, что CR улучшает распознавание аудио-событий в случае с малыми наборами данных (около 20k сэмплов). Мы также проверили метод на больших данных (1.8M сэмплов) и показали, что он позволяет достичь значительной повышения точности. Кроме того, мы рассмотрели случай **semi-supervised learning**, где мы использовали 20k лабеленджных сэмплов и 1.8M необученных сэмплов, что позволило достичь точности выше, чем при обучении только на лабеленджных данных.
## Значимость
Предложенный подход может быть применен в различных задачах, связанных с распознаванием аудио-событий, в том числе в ситуациях, когда данных для обучения мало. Он также может быть полезен в задачах **semi-supervised learning**, когда доступно большое количество необученных данных. Метод демонстрирует свою эффективность в условиях недостатка данных, что повышает его значимость в сложных и реальных условиях.
## Выводы
Мы показали, что **consistency regularization** способствует улучшению распознавания аудио-событий, особенно в условиях недостатка данных. Метод может быть расширен на различные задачи распознавания аудио-событий и применен в случаях, когда доступ