Alternating Approach-Putt Models for Multi-Stage Speech Enhancement

2508.10436v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-08-16
Авторы:

Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn

Резюме на русском

#### Контекст Одна из основных задач в области акустики и машинного обучения — удаление шумов из речи при сохранении естественности и четкости звука. Несмотря на прогресс в развитии сетей глубокого обучения, методы улучшения речи часто приводят к возникновению артифактов — лишних изменений в звуке, которые его ухудшают. Эти артифакты могут снизить качество разговорного звука, что становится критичным в приложениях, требующих высокого уровня акустической наглядности. Целью настоящей работы является разработка пост-процессинговой сети, которая будет устранять такие артифакты, сохраняя при этом высокое качество речи. #### Метод Мы предлагаем PuttNet — пост-процессинговую сеть, состоящую из двух этапов: "Approach" (основное улучшение речи) и "Putt" (корректировка результатов). Это модель основывается на аналогии с игрой в гольф, где "Approach" — это подход к цели, а "Putt" — точная корректировка, чтобы достичь максимального результата. Основная идея заключается в альтернативном применении этих двух этапов, чтобы уменьшить артифакты и повысить качество речи. Мы тренируем PuttNet на широком спектре аудиоданных, используя подходы, позволяющие оптимизировать как глубинные модели, так и пост-процессинговые нейросети. #### Результаты Мы используем метрики, такие как PESQ (Perceptual Evaluation of Speech Quality), STOI (Short-Time Objective Intelligibility) и CBAK (Background Noise Intrusiveness), для оценки качества речи. Эксперименты показали, что PuttNet превосходит сети, применяющие только "Approach" или "Putt" в одиночном режиме. Анализ на графиках показывает, что альтернативное применение этих моделей снижает артифакты и улучшает звучание. Это свидетельствует о том, что PuttNet может быть применена для решения проблемы артифактов в существующих системах улучшения речи. #### Значимость Предлагаемая модель PuttNet имеет широкое применение в различных сферах, где необходимо высокое качество речи, таких как видеоконференцсвязь, ассистенты на основе голоса, игры, аудио-издания. Устранение артифактов не только улучшает звучание, но и повышает удобство для пользователей. Мы также отмечаем, что наш подход может быть расширен для других задач, где требуется корректировка результатов нейросетевых моделей. #### Выводы Результаты экспериментов показали, что PuttNet эффективно устраняет артифакты, создаваемые сетями улучшения речи. Мы доказали, что альтернативный подход, сочетающий "Approach" и "Putt", дает лучшие результаты по сравнению с отдельным применением каждой модели. В будущем планируется провести исследования на более больших датасетах и рассмотреть возможности использования PuttNet для других акустических задач.

Abstract

Speech enhancement using artificial neural networks aims to remove noise from noisy speech signals while preserving the speech content. However, speech enhancement networks often introduce distortions to the speech signal, referred to as artifacts, which can degrade audio quality. In this work, we propose a post-processing neural network designed to mitigate artifacts introduced by speech enhancement models. Inspired by the analogy of making a `Putt' after an `Approach' in golf, we name our model PuttNet. We demonstrate that alternating between a speech enhancement model and the proposed Putt model leads to improved speech quality, as measured by perceptual quality scores (PESQ), objective intelligibility (STOI), and background noise intrusiveness (CBAK) scores. Furthermore, we illustrate with graphical analysis why this alternating Approach outperforms repeated application of either model alone.

Ссылки и действия