TISDiSS: A Training-Time and Inference-Time Scalable Framework for Discriminative Source Separation

2509.15666v2 cs.SD, cs.AI, eess.AS 2025-09-23
Авторы:

Yongsheng Feng, Yuetonghui Xu, Jiehui Luo, Hongjia Liu, Xiaobing Li, Feng Yu, Wei Li

Резюме на русском

#### Контекст Source separation является фундаментальной задачей в области обработки речи, музыки и аудио, а также является важной частью подготовки данных для генеративных моделей. Однако повышение производительности разделения в практических задачах часто приводит к необходимости использовать более крупные сети, что увеличивает затраты на обучение и развертывание. В этом контексте эффективность и скорость выполнения моделей являются ключевыми факторами, особенно для низкоскоростных приложений. Мотивированные этими проблемами, авторы предлагают **TISDiSS** — расширенный инструментарий, который объединяет различные подходы для решения проблемы. #### Метод TISDiSS применяет **множественное управление ранним разделением потерь**, **двустороннюю совместимость сеть-параметры** и **динамическую повторяемость вывода**. Это позволяет управлять скоростью и точностью разделения в ходе вывода без необходимости дополнительного обучения. Авторы также проводят исчерпывающий анализ различных архитектур и характеристик тренировочного процесса. Особое внимание уделено динамическому взаимодействию между скоростью и точностью модели в ходе работы. #### Результаты На экспериментальных данных, включая стандартные бенчмарки разделения речи, модель TISDiSS показала состояние техники в отношении точности разделения с меньшим числом параметров. Также было проведено подробное сравнение с другими подходами, в том числе посредством тестирования скорости и эффективности разделения на низкоскоростных приложениях. Данные результаты подтверждают высокую эффективность TISDiSS в решении задач с требованиями к малому латентному времени. #### Значимость Расширенность TISDiSS заключается в её универсальности и применимости к различным задачам разделения аудио. Она позволяет применять модель в различных сценариях, включая низкоскоростные и реальноработающие приложения, благодаря гибкой масштабируемости. Это означает, что модель может быть использована в областях, где необходимо быстро реагировать на аудиосигналы, при этом не теряя в качестве разделения. #### Выводы TISDiSS доказывает свою полезность в области эффективных и масштабируемых подходов к разделению источников. Будущие исследования могут концентрироваться на повышении её многозадачности и добавлении дополнительных модификаций, чтобы улучшить её применение в новых аудио-приложениях. Данный подход может стать ключевым для развития новых технологий в области разделения и обработки звуковых сигналов.

Abstract

Source separation is a fundamental task in speech, music, and audio processing, and it also provides cleaner and larger data for training generative models. However, improving separation performance in practice often depends on increasingly large networks, inflating training and deployment costs. Motivated by recent advances in inference-time scaling for generative modeling, we propose Training-Time and Inference-Time Scalable Discriminative Source Separation (TISDiSS), a unified framework that integrates early-split multi-loss supervision, shared-parameter design, and dynamic inference repetitions. TISDiSS enables flexible speed-performance trade-offs by adjusting inference depth without retraining additional models. We further provide systematic analyses of architectural and training choices and show that training with more inference repetitions improves shallow-inference performance, benefiting low-latency applications. Experiments on standard speech separation benchmarks demonstrate state-of-the-art performance with a reduced parameter count, establishing TISDiSS as a scalable and practical framework for adaptive source separation. Code is available at https://github.com/WingSingFung/TISDiSS.

Ссылки и действия