Unsupervised Speech Enhancement using Data-defined Priors

2509.22942v1 eess.AS, cs.AI, cs.SD 2025-10-01

Авторы:

Dominik Klement, Matthew Maciejewski, Sanjeev Khudanpur, Jan Černocký, Lukáš Burget

Резюме на русском

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости и восприятия речи в условиях шума. Одной из существенных проблем этой области является нехватка больших объёмов парных чистых и шумных речевых сигналов, необходимых для традиционных методов обучения на основе парных данных. Для решения этой проблемы используется синтетическое генерирование шумных сигналов, но это приводит к несоответствию между обучающими и тестовыми данными, что снижает качество решений. В данной работе предлагается методика, основанная на непарных данных, для решения проблемы улучшения речи в условиях недоступности парных данных. #### Метод Предложена двухветвная архитектура с использованием кодировщика-декодировщика для улучшения речи в условиях недоступности парных данных. Каждая ветвь использует алгоритмы адверсarial training для определения приоритетов по чистой речи и шуму. Одна ветвь определяет приоритеты чистой речи, оперируя с непарным набором данных чистой речи. Другая ветвь определяет приоритеты шума, используя непарный набор данных шума. Эта архитектура позволяет создать два различных представления входных данных, которые, в свою очередь, способствуют эффективному улучшению речи. #### Результаты Использовались реальные данные для проверки метода. Наборы данных, включающие чистые и шумные речевые сигналы, были разделены на типы шума и чистоты речи для чёткого определения влияния каждого из них на результат. Эксперименты показали, что предложенный подход даёт результаты, сравнимые с теми, которые достигаются в самых лучших методах непарного улучшения речи. Это подтверждает эффективность адверсарских тренировок в определении приоритетов для чистой речи и шума, даже при отсутствии парных данных. #### Значимость Предложенный подход может быть применён в ситуациях, где сбор парных данных для обучения невозможен или нецелесообразен. Он применим в области улучшения речи в реальных условиях, в том числе в системах транскрибирования речи, устройствах повышения четкости речи и в медицинских приложениях. Одним из основных преимуществ этого метода является то, что он устраняет необходимость в парных данных, что упрощает процесс обучения. Будущие исследования будут направлены на улучшение точности улучшения речи и внедрение этого подхода в различные реальные приложения. #### Выводы Предложенная работа демонстрирует, что непарные данные могут быть эффективно использованы для решения проблемы улучшения речи. Отдельно отмечено влияние выбора чистых данных на качество результата, что может приводить к смещению в пользу результа

Abstract

The majority of deep learning-based speech enhancement methods require paired clean-noisy speech data. Collecting such data at scale in real-world conditions is infeasible, which has led the community to rely on synthetically generated noisy speech. However, this introduces a gap between the training and testing phases. In this work, we propose a novel dual-branch encoder-decoder architecture for unsupervised speech enhancement that separates the input into clean speech and residual noise. Adversarial training is employed to impose priors on each branch, defined by unpaired datasets of clean speech and, optionally, noise. Experimental results show that our method achieves performance comparable to leading unsupervised speech enhancement approaches. Furthermore, we demonstrate the critical impact of clean speech data selection on enhancement performance. In particular, our findings reveal that performance may appear overly optimistic when in-domain clean speech data are used for prior definition -- a practice adopted in previous unsupervised speech enhancement studies.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unsupervised Speech Enhancement using Data-defined Priors

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Selective Classifier-free Guidance for Zero-shot Text-to-speech

Навигация