TISDiSS: A Training-Time and Inference-Time Scalable Framework for Discriminative Source Separation
2509.15666v2
cs.SD, cs.AI, eess.AS
2025-09-23
Авторы:
Yongsheng Feng, Yuetonghui Xu, Jiehui Luo, Hongjia Liu, Xiaobing Li, Feng Yu, Wei Li
Резюме на русском
#### Контекст
Source separation является фундаментальной задачей в области обработки речи, музыки и аудио, а также является важной частью подготовки данных для генеративных моделей. Однако повышение производительности разделения в практических задачах часто приводит к необходимости использовать более крупные сети, что увеличивает затраты на обучение и развертывание. В этом контексте эффективность и скорость выполнения моделей являются ключевыми факторами, особенно для низкоскоростных приложений. Мотивированные этими проблемами, авторы предлагают **TISDiSS** — расширенный инструментарий, который объединяет различные подходы для решения проблемы.
#### Метод
TISDiSS применяет **множественное управление ранним разделением потерь**, **двустороннюю совместимость сеть-параметры** и **динамическую повторяемость вывода**. Это позволяет управлять скоростью и точностью разделения в ходе вывода без необходимости дополнительного обучения. Авторы также проводят исчерпывающий анализ различных архитектур и характеристик тренировочного процесса. Особое внимание уделено динамическому взаимодействию между скоростью и точностью модели в ходе работы.
#### Результаты
На экспериментальных данных, включая стандартные бенчмарки разделения речи, модель TISDiSS показала состояние техники в отношении точности разделения с меньшим числом параметров. Также было проведено подробное сравнение с другими подходами, в том числе посредством тестирования скорости и эффективности разделения на низкоскоростных приложениях. Данные результаты подтверждают высокую эффективность TISDiSS в решении задач с требованиями к малому латентному времени.
#### Значимость
Расширенность TISDiSS заключается в её универсальности и применимости к различным задачам разделения аудио. Она позволяет применять модель в различных сценариях, включая низкоскоростные и реальноработающие приложения, благодаря гибкой масштабируемости. Это означает, что модель может быть использована в областях, где необходимо быстро реагировать на аудиосигналы, при этом не теряя в качестве разделения.
#### Выводы
TISDiSS доказывает свою полезность в области эффективных и масштабируемых подходов к разделению источников. Будущие исследования могут концентрироваться на повышении её многозадачности и добавлении дополнительных модификаций, чтобы улучшить её применение в новых аудио-приложениях. Данный подход может стать ключевым для развития новых технологий в области разделения и обработки звуковых сигналов.
Abstract
Source separation is a fundamental task in speech, music, and audio
processing, and it also provides cleaner and larger data for training
generative models. However, improving separation performance in practice often
depends on increasingly large networks, inflating training and deployment
costs. Motivated by recent advances in inference-time scaling for generative
modeling, we propose Training-Time and Inference-Time Scalable Discriminative
Source Separation (TISDiSS), a unified framework that integrates early-split
multi-loss supervision, shared-parameter design, and dynamic inference
repetitions. TISDiSS enables flexible speed-performance trade-offs by adjusting
inference depth without retraining additional models. We further provide
systematic analyses of architectural and training choices and show that
training with more inference repetitions improves shallow-inference
performance, benefiting low-latency applications. Experiments on standard
speech separation benchmarks demonstrate state-of-the-art performance with a
reduced parameter count, establishing TISDiSS as a scalable and practical
framework for adaptive source separation. Code is available at
https://github.com/WingSingFung/TISDiSS.
Ссылки и действия
Дополнительные ресурсы: