ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement

2509.19495v1 cs.SD, cs.AI 2025-09-26

Авторы:

Bhawana Chhaglani, Yang Gao, Julius Richter, Xilin Li, Syavosh Zadissa, Tarun Pruthi, Andrew Lovitt

Резюме на русском

## Контекст Diffusion-based speech enhancement (SE) является перспективной технологией, которая позволяет достичь естественного звучания и высокую степень общеприменимости. Однако она сталкивается с такими ограничениями, как присутствие генерируемых артефактов и высокая задержка при обработке. Эти проблемы становятся ключевыми препятствиями для применения diffusion-based SE в реальных сценариях, где высокая точность и низкая задержка являются критически важными. Одним из основных аспектов, который требует решения, является то, что артефакты генеративного характера могут влиять на точность распознавания речи и ухудшать качество семантического содержания. Изучение этой проблемы и разработка эффективных методов для ее решения могут способствовать расширению возможностей diffusion-based SE в полевых приложениях. ## Метод В работе предлагается создать методику, основанную на семантических признаках, для предсказания и устранения генерируемых артефактов в diffusion-based SE. Модель работает путем анализа разброса эмбеддингов речи во время работы модели и использования этих метрик для предсказания генерируемых ошибок. Для устранения артефактов предложено использовать множественные запуски модели с разными настройками, позволяющими сравнивать результаты и выбирать те, которые лучше согласуются с семантическими признаками речи. Этот подход включает в себя адаптивный выбор количества шагов в процессе распространения, который позволяет сбалансировать степень устранения артефактов и задержку вывода. Метод рассматривает данные в разных условиях отношения сигнал-шум (SNR), чтобы проверить его эффективность в разных сценариях. ## Результаты Исследования проводились на широком наборе данных, включая условия с высоким и низким отношением сигнал-шум (SNR). Результаты показали, что метод снижает Word Error Rate (WER) на 15% в условиях низкого SNR, что является существенным улучшением в сравнении с базовой моделью. Также было проведено анализирование семантического содержания звуков, подтвердив, что подход сведет силу к генерируемым артефактам и повысит точность распознавания речи. Эксперименты также показали, что адаптивный выбор шагов распространения позволяет достичь более эффективного баланса между уменьшением артефактов и низкой задержкой вывода. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как звуковая обработка, транскрибирование речи, голосовые помощники и трансляция речи в разные языки. Одним из основных преимуществ является уменьшение генерируемых артефактов, что положительно сказывается на качестве получаемого результата. Это может сделать diffusion-

Abstract

Diffusion-based speech enhancement (SE) achieves natural-sounding speech and strong generalization, yet suffers from key limitations like generative artifacts and high inference latency. In this work, we systematically study artifact prediction and reduction in diffusion-based SE. We show that variance in speech embeddings can be used to predict phonetic errors during inference. Building on these findings, we propose an ensemble inference method guided by semantic consistency across multiple diffusion runs. This technique reduces WER by 15% in low-SNR conditions, effectively improving phonetic accuracy and semantic plausibility. Finally, we analyze the effect of the number of diffusion steps, showing that adaptive diffusion steps balance artifact suppression and latency. Our findings highlight semantic priors as a powerful tool to guide generative SE toward artifact-free outputs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация