A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions
2508.07561v1
cs.SD, cs.AI, eess.AS
2025-08-13
Авторы:
Yiheng Jiang, Tian Biao
Резюме на русском
## Контекст
Полнодуплексная разговорная интерактивная система представляет собой важное технологическое решение, позволяющее одновременно отправлять и получать голосовые сообщения. Однако в этих системах возникает проблема звукового эхоа, которая значительно влияет на качество сигнала и удобство использования. Эхо может возникать из-за различных факторов, включая ненадежные аппаратные решения и нетривиальные звуковые окружения. Эффективное решение этой проблемы требует эффективного решения вопросов с акустическим эхом и задержкой в работе системы. Недостаточная качественная обработка звука приводит к недостаточной активности в системе Voice Activity Detection (VAD) и снижению качества распознавания речи при использовании Automatic Speech Recognition (ASR). Обеспечение качественной обработки звука является ключевым для повышения удобства и эффективности пользователей в полнодуплексных системах.
## Метод
Для решения указанных проблем мы предлагаем алгоритм, основанный на нейронных сетях, с целью улучшить качество акустического эхоа. Мы внедрили различные методы регуляризации и увеличения генеративной мощности модели. Это позволяет увеличить устойчивость модели в различных звуковых условиях и с постоянно меняющимися условиями окружения. Мы также ввели развитие модели прогрессивно, чтобы улучшать качество акустического эхоа в ходе обучения. Для повышения качества сигнала, мы представили пост-процессинг стратегии, которая использует параметры, настроенные специально для возможности Voice Activity Detection (VAD) и Automatic Speech Recognition (ASR). Эти параметры позволяют включить адаптивность для этих задач и улучшить их результаты. Наконец, мы разработали модель с небольшим размером, которая поддерживает стриминговую обработку, что позволяет ее использовать в мобильных устройствах без заметных задержек.
## Результаты
Мы проверили эффективность нашего подхода в нескольких экспериментах. Мы проверили качество акустического эхоа, используя такие показатели, как Echo Return Loss Enhancement (ERLE) и Perceptual Evaluation of Speech Quality (PESQ). Результаты показали, что наша модель превосходит существующие алгоритмы в этих показателях. Мы также проверили качество работы VAD и ASR, используя наши пост-процессинговые стратегии, и обнаружили, что они улучшают качество распознавания речи и активности голоса в системе. Эти результаты подтверждают, что наш подход повышает качество работы полнодуплексных систем, особенно в мобильных устройствах.
## Значимость
Наша модель имеет широкие области применения в системах полнодуплексной разговорной интерактивности, включая мобильные приложения, устройства с голосовым помощником и телекоммуникационные системы. Основные преимущества на
Abstract
In full-duplex speech interaction systems, effective Acoustic Echo
Cancellation (AEC) is crucial for recovering echo-contaminated speech. This
paper presents a neural network-based AEC solution to address challenges in
mobile scenarios with varying hardware, nonlinear distortions and long latency.
We first incorporate diverse data augmentation strategies to enhance the
model's robustness across various environments. Moreover, progressive learning
is employed to incrementally improve AEC effectiveness, resulting in a
considerable improvement in speech quality. To further optimize AEC's
downstream applications, we introduce a novel post-processing strategy
employing tailored parameters designed specifically for tasks such as Voice
Activity Detection (VAD) and Automatic Speech Recognition (ASR), thus enhancing
their overall efficacy. Finally, our method employs a small-footprint model
with streaming inference, enabling seamless deployment on mobile devices.
Empirical results demonstrate effectiveness of the proposed method in Echo
Return Loss Enhancement and Perceptual Evaluation of Speech Quality, alongside
significant improvements in both VAD and ASR results.
Ссылки и действия
Дополнительные ресурсы: