A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

2508.14623v1 eess.AS, cs.AI, cs.SD 2025-08-22

Авторы:

Simon Dahl Jepsen, Mads Græsbøll Christensen, Jesper Rindom Jensen

Резюме на русском

## Контекст В области звукового сегментирования и синтеза звука, таких как звуковое разделение речи, центральным заданием является оценка и улучшение качества разделённых сигналов. Одним из популярных показателей для этой задачи является Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), который является фундаментальным инструментом в методах отбора и оценки качества разделённых сигналов. Однако, в реальности, звуковые сигналы часто содержат шум, что повлияет на качество сигналов после разделения. Настоящая статья рассматривает проблему сношения SI-SDR с шумом в речевых сигналах, а также исследует эффект этого взаимодействия на качество разделённых сигналов. ## Метод Основной методологией исследования является анализ влияния шума в референсах на вычисление SI-SDR. Авторы рассматривают два основных взаимодействия: влияние шума на метрику SI-SDR и его влияние на качество разделённых сигналов. Для экспериментов, используются две разновидности сигналов: синтетические звуковые сэмплы с известным шумом, а также реальные речи, записанные в условиях шума. Для измерения качества разделённых сигналов используется метрика NISQA.v2, которая оценивает качество разделённых сигналов независимо от интрузивного анализа. ## Результаты В ходе экспериментов было выявлено, что шум в референсах приводит к ограничению достижимого SI-SDR. Также, было показано, что существенным недостатком использования шумового референса является включение шума в разделённые сигналы. Использование улучшенных референсных сигналов и дополнительных шумовых сигналов в качестве аугментаций (WHAM!) позволило снизить эффект шума в разделённых сигналах. Однако, это также привело к некоторым артефактам в разделённых сигналах, что привело к небольшому снижению качества. Также, было выявлено отрицательное коррелированное отношение между SI-SDR и уровнем шума в разделённых сигналах. ## Значимость Исследование имеет значимое значение для области развития алгоритмов разделения речи. Улучшение методов разделения речи, которое может привести к повышению качества разделённых сигналов, имеет приложения в таких областях, как звуковая обработка, улучшение речевых систем, синтез речи и интеллектуальные системы управления. Этот подход может способствовать решению проблемы шума в данных и созданию более надежных систем персональных помощников. ## Выводы В результате исследования было показано, что SI-SDR может быть влиянием шума в референсах, что может привести к нежелательным артефактам в разделённых сигналах. Было предложено методика для улучшения квалификации референсных сигналов

Abstract

This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация