Neural Audio Codecs for Prompt-Driven Universal Source Separation

2509.11717v1 cs.SD, cs.LG 2025-09-17
Авторы:

Adhiraj Banerjee, Vipul Arora

Резюме на русском

## Контекст Текстово-ориентированная разделка звука (text-guided source separation, TSS) представляет собой технологию, позволяя изменять аудиоконтент в зависимости от текстовых подсказок. Она применяется в различных приложениях, включая управление устройствами, запись аудио, помощь слушателям с ограниченным зрением и другие сценарии. Однако существующие модели, такие как AudioSep, требуют больших вычислительных ресурсов, что делает их неэффективными для развертывания на устройствах с ограниченными возможностями, таких как мобильные телефоны и смарт-спикеры. Этот рисунок проблемы вдохновил разработку более эффективных алгоритмов, оптимизированных для ограниченных ресурсов, при этом сохраняющих высокую точность и качество аудио. ## Метод Мы предлагаем **CodecSep**, первую модель на основе neural audio codec (NAC), которая выполняет одновременную разделку и управление звуком с использованием текстовых подсказок. Основная идея заключается в сочетании метода разделения DAC (discrete audio coding) со слоем FiLM (Featurewise Linear Modulation), который регулируется параметрами CLAP (Concept Language Audio Pretraining). Наша архитектура включает в себя нейронные сети с преобразованиями FiLM, которые позволяют модели настраиваться на текстовые запросы в реальном времени. Это делает модель CodecSep более гибкой и эффективной в различных сценариях разделки звука. ## Результаты Мы проводили эксперименты на шести открытых бенчмарках, сравнивая CodecSep с AudioSep и другими моделями. Модель CodecSep показала лучшие результаты в соотношении сигнал-шум (SI-SDR), что означает более высокую точность разделки звука. В то же время, она оставалась конкурентна в оценке качества восприятия (ViSQOL) и матчастно соответствовала или превышала базовые модели (TDANet, CodecFormer, SDCodec). Особенно выделяется ее эффективность в вычислительных задачах, где она потребляет всего 1.35 GMACs для одновременной разделки и управления звуком, что на 54 раз меньше, чем у AudioSep. ## Значимость Результаты CodecSep демонстрируют ее перспективность в приложениях, требующих высокого качества разделки звука с ограниченными ресурсами, таких как мобильные устройства, смарт-дисплеи и автомобильные системы. Благодаря своей эффективности, модель может работать на более узких битрейтах, что особенно важно для реализации на устройствах с ограниченным пропускным каналом. Это открывает новые возможности для развития ассистивных технологий, управления звуком и интерактивных приложений. ## Выводы В результате наших исследований, CodecSep достигла значительных улучшений в сфере TSS, обеспечивая высокую точность и эффективность вычислений. Мы планируем продолжи

Abstract

Text-guided source separation supports flexible audio editing across media and assistive applications, but existing models like AudioSep are too compute-heavy for edge deployment. Neural audio codec (NAC) models such as CodecFormer and SDCodec are compute-efficient but limited to fixed-class separation. We introduce CodecSep, the first NAC-based model for on-device universal, text-driven separation. CodecSep combines DAC compression with a Transformer masker modulated by CLAP-derived FiLM parameters. Across six open-domain benchmarks under matched training/prompt protocols, \textbf{CodecSep} surpasses \textbf{AudioSep} in separation fidelity (SI-SDR) while remaining competitive in perceptual quality (ViSQOL) and matching or exceeding fixed-stem baselines (TDANet, CodecFormer, SDCodec). In code-stream deployments, it needs just 1.35~GMACs end-to-end -- approximately $54\times$ less compute ($25\times$ architecture-only) than spectrogram-domain separators like AudioSep -- while remaining fully bitstream-compatible.

Ссылки и действия