Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions
2508.14556v1
cs.SD, cs.AI, eess.AS
2025-08-22
Авторы:
Euiyeon Kim, Yong-Hoon Choi
Резюме на русском
## Контекст
Музыкальная источниковая сепарация (Music Source Separation, MSS) является важной задачей в области процессинга аудио, нацеленной на разделение музыкальных источников (таких как вокал, инструменты) в смешанном аудиосигнале. Однако вокальная сепарация, особенно для интерметтирующих звуков, остается сложной. Отсутствие графического представления данных и недостаточная поддержка длинных зависимостей во временном домене в традиционных моделях делают их менее эффективными для такой задачи. Эта проблема становится критичной для сценариев, где вокал проявляется непоследовательно, что приводит к неточностям в сепарации. Наша модель Mamba2 Meets Silence предназначена для преодоления этих ограничений, используя новый подход, основанный на state space modeling.
## Метод
Мы предлагаем модель Mamba2 Meets Silence, которая сочетает современные state space models (Mamba2) с продвинутой архитектурой dual-path. Мamba2 используется для предсказания длинных временных зависимостей, что обеспечивает точность в сепарации вокала. Для эффективной обработки длинных входных последовательностей мы вводим стратегию band-splitting, разделяющую сигнал на небольшие части для более простой обработки. Это позволяет модели удерживать высокую точность при обработке задач с переменной длиной входных сигналов. Дополнительно, мы применяем адаптивные фильтры для детального улучшения сепарации звуков.
## Результаты
Наши эксперименты показали, что модель Mamba2 Meets Silence превосходит существующие современные модели, достигая сдвоенного cSDR (clean Signal-to-Distortion Ratio) в 11.03 dB, который является наилучшим показателем в сравнении со старыми моделями. Этот результат достигнут благодаря эффективному использованию state space models и точной обработке длинных последовательностей. Модель также продемонстрировала высокую стабильность и точность при разных условиях ввода. Эти результаты позволяют нам сделать вывод, что наш подход является оптимальным для сепарации вокала в музыкальных сигналах.
## Значимость
Модель Mamba2 Meets Silence имеет широкие возможности применения в области аудио-редактирования, машинного обучения для музыки и автоматизации процессов сепарации музыкальных источников. Она предлагает преимущества в том числе высокий уровень точности в сепарации звуков, улучшенная скорость обработки и надежные результаты при разнообразных входных данных. Эти достижения открывают новые пути для развития технологий в области аудио-процессинга и их использования в приложениях, таких как генерация музыки, автоматическая синтезированная голоса и аудио-редактирование.
## Выводы
Мы представляем новую модель Mamba2 Meets Silence, которая показала высокую эффективность в вокальной сепарации
Abstract
We introduce a new music source separation model tailored for accurate vocal
isolation. Unlike Transformer-based approaches, which often fail to capture
intermittently occurring vocals, our model leverages Mamba2, a recent state
space model, to better capture long-range temporal dependencies. To handle long
input sequences efficiently, we combine a band-splitting strategy with a
dual-path architecture. Experiments show that our approach outperforms recent
state-of-the-art models, achieving a cSDR of 11.03 dB-the best reported to
date-and delivering substantial gains in uSDR. Moreover, the model exhibits
stable and consistent performance across varying input lengths and vocal
occurrence patterns. These results demonstrate the effectiveness of Mamba-based
models for high-resolution audio processing and open up new directions for
broader applications in audio research.
Ссылки и действия
Дополнительные ресурсы: