Unsupervised Speech Enhancement using Data-defined Priors
2509.22942v1
eess.AS, cs.AI, cs.SD
2025-10-01
Авторы:
Dominik Klement, Matthew Maciejewski, Sanjeev Khudanpur, Jan Černocký, Lukáš Burget
Резюме на русском
#### Контекст
Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости и восприятия речи в условиях шума. Одной из существенных проблем этой области является нехватка больших объёмов парных чистых и шумных речевых сигналов, необходимых для традиционных методов обучения на основе парных данных. Для решения этой проблемы используется синтетическое генерирование шумных сигналов, но это приводит к несоответствию между обучающими и тестовыми данными, что снижает качество решений. В данной работе предлагается методика, основанная на непарных данных, для решения проблемы улучшения речи в условиях недоступности парных данных.
#### Метод
Предложена двухветвная архитектура с использованием кодировщика-декодировщика для улучшения речи в условиях недоступности парных данных. Каждая ветвь использует алгоритмы адверсarial training для определения приоритетов по чистой речи и шуму. Одна ветвь определяет приоритеты чистой речи, оперируя с непарным набором данных чистой речи. Другая ветвь определяет приоритеты шума, используя непарный набор данных шума. Эта архитектура позволяет создать два различных представления входных данных, которые, в свою очередь, способствуют эффективному улучшению речи.
#### Результаты
Использовались реальные данные для проверки метода. Наборы данных, включающие чистые и шумные речевые сигналы, были разделены на типы шума и чистоты речи для чёткого определения влияния каждого из них на результат. Эксперименты показали, что предложенный подход даёт результаты, сравнимые с теми, которые достигаются в самых лучших методах непарного улучшения речи. Это подтверждает эффективность адверсарских тренировок в определении приоритетов для чистой речи и шума, даже при отсутствии парных данных.
#### Значимость
Предложенный подход может быть применён в ситуациях, где сбор парных данных для обучения невозможен или нецелесообразен. Он применим в области улучшения речи в реальных условиях, в том числе в системах транскрибирования речи, устройствах повышения четкости речи и в медицинских приложениях. Одним из основных преимуществ этого метода является то, что он устраняет необходимость в парных данных, что упрощает процесс обучения. Будущие исследования будут направлены на улучшение точности улучшения речи и внедрение этого подхода в различные реальные приложения.
#### Выводы
Предложенная работа демонстрирует, что непарные данные могут быть эффективно использованы для решения проблемы улучшения речи. Отдельно отмечено влияние выбора чистых данных на качество результата, что может приводить к смещению в пользу результа
Abstract
The majority of deep learning-based speech enhancement methods require paired
clean-noisy speech data. Collecting such data at scale in real-world conditions
is infeasible, which has led the community to rely on synthetically generated
noisy speech. However, this introduces a gap between the training and testing
phases. In this work, we propose a novel dual-branch encoder-decoder
architecture for unsupervised speech enhancement that separates the input into
clean speech and residual noise. Adversarial training is employed to impose
priors on each branch, defined by unpaired datasets of clean speech and,
optionally, noise. Experimental results show that our method achieves
performance comparable to leading unsupervised speech enhancement approaches.
Furthermore, we demonstrate the critical impact of clean speech data selection
on enhancement performance. In particular, our findings reveal that performance
may appear overly optimistic when in-domain clean speech data are used for
prior definition -- a practice adopted in previous unsupervised speech
enhancement studies.
Ссылки и действия
Дополнительные ресурсы: