Alternating Approach-Putt Models for Multi-Stage Speech Enhancement
2508.10436v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-08-16
Авторы:
Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn
Резюме на русском
#### Контекст
Одна из основных задач в области акустики и машинного обучения — удаление шумов из речи при сохранении естественности и четкости звука. Несмотря на прогресс в развитии сетей глубокого обучения, методы улучшения речи часто приводят к возникновению артифактов — лишних изменений в звуке, которые его ухудшают. Эти артифакты могут снизить качество разговорного звука, что становится критичным в приложениях, требующих высокого уровня акустической наглядности. Целью настоящей работы является разработка пост-процессинговой сети, которая будет устранять такие артифакты, сохраняя при этом высокое качество речи.
#### Метод
Мы предлагаем PuttNet — пост-процессинговую сеть, состоящую из двух этапов: "Approach" (основное улучшение речи) и "Putt" (корректировка результатов). Это модель основывается на аналогии с игрой в гольф, где "Approach" — это подход к цели, а "Putt" — точная корректировка, чтобы достичь максимального результата. Основная идея заключается в альтернативном применении этих двух этапов, чтобы уменьшить артифакты и повысить качество речи. Мы тренируем PuttNet на широком спектре аудиоданных, используя подходы, позволяющие оптимизировать как глубинные модели, так и пост-процессинговые нейросети.
#### Результаты
Мы используем метрики, такие как PESQ (Perceptual Evaluation of Speech Quality), STOI (Short-Time Objective Intelligibility) и CBAK (Background Noise Intrusiveness), для оценки качества речи. Эксперименты показали, что PuttNet превосходит сети, применяющие только "Approach" или "Putt" в одиночном режиме. Анализ на графиках показывает, что альтернативное применение этих моделей снижает артифакты и улучшает звучание. Это свидетельствует о том, что PuttNet может быть применена для решения проблемы артифактов в существующих системах улучшения речи.
#### Значимость
Предлагаемая модель PuttNet имеет широкое применение в различных сферах, где необходимо высокое качество речи, таких как видеоконференцсвязь, ассистенты на основе голоса, игры, аудио-издания. Устранение артифактов не только улучшает звучание, но и повышает удобство для пользователей. Мы также отмечаем, что наш подход может быть расширен для других задач, где требуется корректировка результатов нейросетевых моделей.
#### Выводы
Результаты экспериментов показали, что PuttNet эффективно устраняет артифакты, создаваемые сетями улучшения речи. Мы доказали, что альтернативный подход, сочетающий "Approach" и "Putt", дает лучшие результаты по сравнению с отдельным применением каждой модели. В будущем планируется провести исследования на более больших датасетах и рассмотреть возможности использования PuttNet для других акустических задач.
Abstract
Speech enhancement using artificial neural networks aims to remove noise from
noisy speech signals while preserving the speech content. However, speech
enhancement networks often introduce distortions to the speech signal, referred
to as artifacts, which can degrade audio quality. In this work, we propose a
post-processing neural network designed to mitigate artifacts introduced by
speech enhancement models. Inspired by the analogy of making a `Putt' after an
`Approach' in golf, we name our model PuttNet. We demonstrate that alternating
between a speech enhancement model and the proposed Putt model leads to
improved speech quality, as measured by perceptual quality scores (PESQ),
objective intelligibility (STOI), and background noise intrusiveness (CBAK)
scores. Furthermore, we illustrate with graphical analysis why this alternating
Approach outperforms repeated application of either model alone.