SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering

2509.18603v1 eess.AS, cs.AI, cs.SD 2025-09-25

Авторы:

Jiarui Hai, Mounya Elhilali

Резюме на русском

#### Контекст Область Sound Event Detection (SED), основная задача которой — определение и разметка звуковых событий в аудио, сталкивается с ограничениями, связанными с недостатком масштабных, таймингово помеченных данных. Этот недостаток затрудняет обучение моделей, которые должны точно распознавать и классифицировать сложные сцены с несколькими событиями. Несмотря на существующие методы аугментации, такие как SpecAugment и Mix-up, они ограничены в разнообразии генерируемых сэмплов и не всегда достаточно эффективны. Текущая мотивация заключается в разработке новых подходов, основанных на генерируемых моделях, которые могут сгенерировать более разнообразные и корректно помеченные данные для SED. #### Метод Метод SynSonic основан на применении текст-к-звуковой диффузионной модели, обученной на низкоуровневых признаках звука, таких как энергия и форма волны. Для обеспечения корректности и подробности генерируемых звуковых событий используется ControlNet, который управляет моделью через энергийную октановку. Для фильтрации генерируемых сэмплов предлагается стратегия joint score filtering, включающую два классификатора: один для глобальной оценки качества, другой — для локального анализа звука. Эти компоненты объединены в архитектуру, которая допускает синтез разнообразных и точно помеченных звуковых событий. #### Результаты Используя данные из тестовых наборов, разработчики проверили SynSonic на задаче SED, используя метрики Polyphonic Sound Detection Scores (PSDS1 и PSDS2). Наблюдается улучшение этих метрик в сравнении со стандартными методами аугментации, что указывает на эффективность SynSonic в повышении точности локализации времени и различения классов. Эксперименты также показывают, что фильтрация сэмплов с помощью joint score filtering стабилизирует результаты и повышает качество генерируемых звуков. #### Значимость SynSonic может быть применен в различных областях, где требуется точное распознавание звуковых событий, таких как обнаружение природы, здравоохранение и безопасность. Одним из основных преимуществ является увеличение разнообразия данных, что позволяет моделям SED лучше адаптироваться к различным сценариям. Будущие работы будут сконцентрированы на улучшении фильтрации сэмплов, интеграции с новыми моделями генеративного моделирования и расширении приложений. #### Выводы SynSonic представляет собой прорыв в генерируемом аугментировании для SED, обеспечивая точные и разнообразные звуковые события. Этот подход показывает потенциал для решения проблемы нехватки данных и может стать важной компонентой в будущих исследованиях в области SED.

Abstract

Data synthesis and augmentation are essential for Sound Event Detection (SED) due to the scarcity of temporally labeled data. While augmentation methods like SpecAugment and Mix-up can enhance model performance, they remain constrained by the diversity of existing samples. Recent generative models offer new opportunities, yet their direct application to SED is challenging due to the lack of precise temporal annotations and the risk of introducing noise through unreliable filtering. To address these challenges and enable generative-based augmentation for SED, we propose SynSonic, a data augmentation method tailored for this task. SynSonic leverages text-to-audio diffusion models guided by an energy-envelope ControlNet to generate temporally coherent sound events. A joint score filtering strategy with dual classifiers ensures sample quality, and we explore its practical integration into training pipelines. Experimental results show that SynSonic improves Polyphonic Sound Detection Scores (PSDS1 and PSDS2), enhancing both temporal localization and sound class discrimination.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация