FlexSED: Towards Open-Vocabulary Sound Event Detection
2509.18606v1
eess.AS, cs.AI, cs.SD
2025-09-25
Авторы:
Jiarui Hai, Helin Wang, Weizhe Guo, Mounya Elhilali
Резюме на русском
## Контекст
Звуковое событийное распознавание (Sound Event Detection, SED) является ключевым заданием в области обработки звука, которое стремится к точному выявлению и разметке звуковых событий в аудиозаписях. Традиционные SED-системы ограничены в своей способности обрабатывать широкий объем звуков и эффективно реагировать на нестандартные запросы. Существующие подходы, основанные на классических методах классификации, не могут удовлетворить потребности в гибкой интерактивной обработке, такой как определение звуков по текстовым запросам. Эта проблема особенно актуальна в повседневных сценариях, где пользователи желают использовать свободную терминологию для описания звуков. Кроме того, существующие системы либо не обладают нулевоквантными (zero-shot) способностями, либо имеют слабую адаптивность в условиях небольшого числа обучающих примеров. Эти ограничения призывают к развитию новых подходов, которые могли бы расширить возможности систем SED.
## Метод
FlexSED — это система open-vocabulary SED, разработанная на базе предобученного модели аудио-с SELF (Self-supervised Learning, SSL) и CLAP (Contrastive Language-Audio Pre-training) текстового кодировщика. Главным инновационным аспектом FlexSED является использование композиции в кодировщике-декодировщике (encoder-decoder), которая позволяет эффективно применять модель к продолжительным аудиозаписям. Более того, система применяет адаптивную стратегию фьюзинга для объединения сигналов с различных ресурсов. Чтобы улучшить условия обучения, FlexSED интегрирует большие языковые модели (LLMs), которые помогают в выборе эвент-квери (event query) для тренировочных данных, адрессовав проблему отсутствия меток. Эта стратегия позволяет FlexSED значительно повысить свою универсальность и эффективность в условиях ограниченного количества данных.
## Результаты
В ходе экспериментов FlexSED была проверена на выборке AudioSet-Strong, которая представляет собой сложную звуковую среду с различными звуковыми событиями. В сравнении с существующими SED-моделями, FlexSED показала значительное улучшение в точности распознавания и скорости обнаружения событий. Особенно выдающимися результатами она проявилась в зоне zero-shot и few-shot обучения, где её устойчивость и гибкость доказались как на новых типах звуков, так и при небольшом количестве примеров. Эти результаты значительно обогащают потенциал применения SED в различных практических сценариях.
## Значимость
FlexSED открывает новые перспективы для широкого круга приложений, включая системы управления аудио, автоматизированные анализаторы звука и системы поддержки слухового восприятия.
Abstract
Despite recent progress in large-scale sound event detection (SED) systems
capable of handling hundreds of sound classes, existing multi-class
classification frameworks remain fundamentally limited. They cannot process
free-text sound queries, which enable more flexible and user-friendly
interaction, and they lack zero-shot capabilities and offer poor few-shot
adaptability. Although text-query-based separation methods have been explored,
they primarily focus on source separation and are ill-suited for SED tasks that
require precise temporal localization and efficient detection across large and
diverse sound vocabularies. In this paper, we propose FlexSED, an
open-vocabulary sound event detection system. FlexSED builds on a pretrained
audio SSL model and the CLAP text encoder, introducing an encoder-decoder
composition and an adaptive fusion strategy to enable effective continuous
training from pretrained weights. To ensure robust supervision, it also employs
large language models (LLMs) to assist in event query selection during
training, addressing challenges related to missing labels. As a result, FlexSED
achieves superior performance compared to vanilla SED models on
AudioSet-Strong, while demonstrating strong zero-shot and few-shot
capabilities. We release the code and pretrained models to support future
research and applications based on FlexSED.
Ссылки и действия
Дополнительные ресурсы: