SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering
2509.18603v1
eess.AS, cs.AI, cs.SD
2025-09-25
Авторы:
Jiarui Hai, Mounya Elhilali
Резюме на русском
#### Контекст
Область Sound Event Detection (SED), основная задача которой — определение и разметка звуковых событий в аудио, сталкивается с ограничениями, связанными с недостатком масштабных, таймингово помеченных данных. Этот недостаток затрудняет обучение моделей, которые должны точно распознавать и классифицировать сложные сцены с несколькими событиями. Несмотря на существующие методы аугментации, такие как SpecAugment и Mix-up, они ограничены в разнообразии генерируемых сэмплов и не всегда достаточно эффективны. Текущая мотивация заключается в разработке новых подходов, основанных на генерируемых моделях, которые могут сгенерировать более разнообразные и корректно помеченные данные для SED.
#### Метод
Метод SynSonic основан на применении текст-к-звуковой диффузионной модели, обученной на низкоуровневых признаках звука, таких как энергия и форма волны. Для обеспечения корректности и подробности генерируемых звуковых событий используется ControlNet, который управляет моделью через энергийную октановку. Для фильтрации генерируемых сэмплов предлагается стратегия joint score filtering, включающую два классификатора: один для глобальной оценки качества, другой — для локального анализа звука. Эти компоненты объединены в архитектуру, которая допускает синтез разнообразных и точно помеченных звуковых событий.
#### Результаты
Используя данные из тестовых наборов, разработчики проверили SynSonic на задаче SED, используя метрики Polyphonic Sound Detection Scores (PSDS1 и PSDS2). Наблюдается улучшение этих метрик в сравнении со стандартными методами аугментации, что указывает на эффективность SynSonic в повышении точности локализации времени и различения классов. Эксперименты также показывают, что фильтрация сэмплов с помощью joint score filtering стабилизирует результаты и повышает качество генерируемых звуков.
#### Значимость
SynSonic может быть применен в различных областях, где требуется точное распознавание звуковых событий, таких как обнаружение природы, здравоохранение и безопасность. Одним из основных преимуществ является увеличение разнообразия данных, что позволяет моделям SED лучше адаптироваться к различным сценариям. Будущие работы будут сконцентрированы на улучшении фильтрации сэмплов, интеграции с новыми моделями генеративного моделирования и расширении приложений.
#### Выводы
SynSonic представляет собой прорыв в генерируемом аугментировании для SED, обеспечивая точные и разнообразные звуковые события. Этот подход показывает потенциал для решения проблемы нехватки данных и может стать важной компонентой в будущих исследованиях в области SED.
Abstract
Data synthesis and augmentation are essential for Sound Event Detection (SED)
due to the scarcity of temporally labeled data. While augmentation methods like
SpecAugment and Mix-up can enhance model performance, they remain constrained
by the diversity of existing samples. Recent generative models offer new
opportunities, yet their direct application to SED is challenging due to the
lack of precise temporal annotations and the risk of introducing noise through
unreliable filtering. To address these challenges and enable generative-based
augmentation for SED, we propose SynSonic, a data augmentation method tailored
for this task. SynSonic leverages text-to-audio diffusion models guided by an
energy-envelope ControlNet to generate temporally coherent sound events. A
joint score filtering strategy with dual classifiers ensures sample quality,
and we explore its practical integration into training pipelines. Experimental
results show that SynSonic improves Polyphonic Sound Detection Scores (PSDS1
and PSDS2), enhancing both temporal localization and sound class
discrimination.
Ссылки и действия
Дополнительные ресурсы: