Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions

2508.14556v1 cs.SD, cs.AI, eess.AS 2025-08-22

Авторы:

Euiyeon Kim, Yong-Hoon Choi

Резюме на русском

## Контекст Музыкальная источниковая сепарация (Music Source Separation, MSS) является важной задачей в области процессинга аудио, нацеленной на разделение музыкальных источников (таких как вокал, инструменты) в смешанном аудиосигнале. Однако вокальная сепарация, особенно для интерметтирующих звуков, остается сложной. Отсутствие графического представления данных и недостаточная поддержка длинных зависимостей во временном домене в традиционных моделях делают их менее эффективными для такой задачи. Эта проблема становится критичной для сценариев, где вокал проявляется непоследовательно, что приводит к неточностям в сепарации. Наша модель Mamba2 Meets Silence предназначена для преодоления этих ограничений, используя новый подход, основанный на state space modeling. ## Метод Мы предлагаем модель Mamba2 Meets Silence, которая сочетает современные state space models (Mamba2) с продвинутой архитектурой dual-path. Мamba2 используется для предсказания длинных временных зависимостей, что обеспечивает точность в сепарации вокала. Для эффективной обработки длинных входных последовательностей мы вводим стратегию band-splitting, разделяющую сигнал на небольшие части для более простой обработки. Это позволяет модели удерживать высокую точность при обработке задач с переменной длиной входных сигналов. Дополнительно, мы применяем адаптивные фильтры для детального улучшения сепарации звуков. ## Результаты Наши эксперименты показали, что модель Mamba2 Meets Silence превосходит существующие современные модели, достигая сдвоенного cSDR (clean Signal-to-Distortion Ratio) в 11.03 dB, который является наилучшим показателем в сравнении со старыми моделями. Этот результат достигнут благодаря эффективному использованию state space models и точной обработке длинных последовательностей. Модель также продемонстрировала высокую стабильность и точность при разных условиях ввода. Эти результаты позволяют нам сделать вывод, что наш подход является оптимальным для сепарации вокала в музыкальных сигналах. ## Значимость Модель Mamba2 Meets Silence имеет широкие возможности применения в области аудио-редактирования, машинного обучения для музыки и автоматизации процессов сепарации музыкальных источников. Она предлагает преимущества в том числе высокий уровень точности в сепарации звуков, улучшенная скорость обработки и надежные результаты при разнообразных входных данных. Эти достижения открывают новые пути для развития технологий в области аудио-процессинга и их использования в приложениях, таких как генерация музыки, автоматическая синтезированная голоса и аудио-редактирование. ## Выводы Мы представляем новую модель Mamba2 Meets Silence, которая показала высокую эффективность в вокальной сепарации

Abstract

We introduce a new music source separation model tailored for accurate vocal isolation. Unlike Transformer-based approaches, which often fail to capture intermittently occurring vocals, our model leverages Mamba2, a recent state space model, to better capture long-range temporal dependencies. To handle long input sequences efficiently, we combine a band-splitting strategy with a dual-path architecture. Experiments show that our approach outperforms recent state-of-the-art models, achieving a cSDR of 11.03 dB-the best reported to date-and delivering substantial gains in uSDR. Moreover, the model exhibits stable and consistent performance across varying input lengths and vocal occurrence patterns. These results demonstrate the effectiveness of Mamba-based models for high-resolution audio processing and open up new directions for broader applications in audio research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация