FlexSED: Towards Open-Vocabulary Sound Event Detection

2509.18606v1 eess.AS, cs.AI, cs.SD 2025-09-25
Авторы:

Jiarui Hai, Helin Wang, Weizhe Guo, Mounya Elhilali

Резюме на русском

## Контекст Звуковое событийное распознавание (Sound Event Detection, SED) является ключевым заданием в области обработки звука, которое стремится к точному выявлению и разметке звуковых событий в аудиозаписях. Традиционные SED-системы ограничены в своей способности обрабатывать широкий объем звуков и эффективно реагировать на нестандартные запросы. Существующие подходы, основанные на классических методах классификации, не могут удовлетворить потребности в гибкой интерактивной обработке, такой как определение звуков по текстовым запросам. Эта проблема особенно актуальна в повседневных сценариях, где пользователи желают использовать свободную терминологию для описания звуков. Кроме того, существующие системы либо не обладают нулевоквантными (zero-shot) способностями, либо имеют слабую адаптивность в условиях небольшого числа обучающих примеров. Эти ограничения призывают к развитию новых подходов, которые могли бы расширить возможности систем SED. ## Метод FlexSED — это система open-vocabulary SED, разработанная на базе предобученного модели аудио-с SELF (Self-supervised Learning, SSL) и CLAP (Contrastive Language-Audio Pre-training) текстового кодировщика. Главным инновационным аспектом FlexSED является использование композиции в кодировщике-декодировщике (encoder-decoder), которая позволяет эффективно применять модель к продолжительным аудиозаписям. Более того, система применяет адаптивную стратегию фьюзинга для объединения сигналов с различных ресурсов. Чтобы улучшить условия обучения, FlexSED интегрирует большие языковые модели (LLMs), которые помогают в выборе эвент-квери (event query) для тренировочных данных, адрессовав проблему отсутствия меток. Эта стратегия позволяет FlexSED значительно повысить свою универсальность и эффективность в условиях ограниченного количества данных. ## Результаты В ходе экспериментов FlexSED была проверена на выборке AudioSet-Strong, которая представляет собой сложную звуковую среду с различными звуковыми событиями. В сравнении с существующими SED-моделями, FlexSED показала значительное улучшение в точности распознавания и скорости обнаружения событий. Особенно выдающимися результатами она проявилась в зоне zero-shot и few-shot обучения, где её устойчивость и гибкость доказались как на новых типах звуков, так и при небольшом количестве примеров. Эти результаты значительно обогащают потенциал применения SED в различных практических сценариях. ## Значимость FlexSED открывает новые перспективы для широкого круга приложений, включая системы управления аудио, автоматизированные анализаторы звука и системы поддержки слухового восприятия.

Abstract

Despite recent progress in large-scale sound event detection (SED) systems capable of handling hundreds of sound classes, existing multi-class classification frameworks remain fundamentally limited. They cannot process free-text sound queries, which enable more flexible and user-friendly interaction, and they lack zero-shot capabilities and offer poor few-shot adaptability. Although text-query-based separation methods have been explored, they primarily focus on source separation and are ill-suited for SED tasks that require precise temporal localization and efficient detection across large and diverse sound vocabularies. In this paper, we propose FlexSED, an open-vocabulary sound event detection system. FlexSED builds on a pretrained audio SSL model and the CLAP text encoder, introducing an encoder-decoder composition and an adaptive fusion strategy to enable effective continuous training from pretrained weights. To ensure robust supervision, it also employs large language models (LLMs) to assist in event query selection during training, addressing challenges related to missing labels. As a result, FlexSED achieves superior performance compared to vanilla SED models on AudioSet-Strong, while demonstrating strong zero-shot and few-shot capabilities. We release the code and pretrained models to support future research and applications based on FlexSED.

Ссылки и действия

Связанные статьи

Unsupervised Speech Enhancement using Data-defined Priors

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости ...

2025-10-01

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической...

2025-09-26