Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Long and Short Temporal Patterns

2509.05079v1 eess.AS, cs.LG, cs.SD, eess.SP 2025-09-09
Авторы:

Konstantinos Drossos, Mikko Heikkinen, Paschalis Tsiaflakis

Резюме на русском

#### Контекст Звуковое очищение (speech denoising, SD) является важной задачей для многих современных сигнальных обработчиков, используемых в устройствах для повседневных целей. Несмотря на то, что существует много DNN-based методов для SD, большинство из них не предназначены для быстродействия на ресурсно-ограниченных платформах, таких как мобильные устройства. Более того, немногие из этих методов сосредоточены на обработке полнополосных (full-band, FB) сигналов с высокой частотой дискретизации (48 кГц) или требуют низкой задержки. Этот труд подробно рассматривает разработку легковесного DNN-based метода для FB SD, который эффективно использует как короткие, так и длинные временные зависимости в сигнале и его оценке. #### Метод Метод основывается на модифицированной архитектуре UNet, которая включает в себя look-back frames, расширенные как вдоль, так и поперёк окна звукового сигнала. Архитектура также включает инвертированные бутленки (inverted bottlenecks), имитирующие MobileNet, каскадные сверточные сети с рекуррентными нейронными сетями (RNN) для обработки длинных и коротких временных зависимостей. Учитывая природу SD в режиме реального времени, метод работает кадрово (frame-by-frame) и использует STFT-матрицу звука в качестве входного параметра. Для нормализации каналов применяется каскадная инстансная нормализация (causal instance normalization). Результатом модели является рекуррентная оценка маски дезинформации, используемой для очистки звукового сигнала. #### Результаты Для проверки разработанного метода использовались различные спектрограммы (STFT) с полнополостными сигналами (48 кГц) из открытых источников данных. Оптимизированная модель показала высокую эффективность, достигая значительного улучшения в метриках (SI-)SDR по сравнению с другими методами FB SD с низкой задержкой. Эти результаты достигнуты благодаря интеграции как коротких, так и длинных временных зависимостей, а также благодаря оптимизации архитектуры с учетом ресурсов реального времени. #### Значимость Разработанный метод имеет широкие применения в области обработки звука, включая мобильные устройства, смарт-гаджеты и устройства с ограниченными ресурсами. Он эффективно решает проблему SD в режиме реального времени, при оптимальном балансе между качеством и скоростью. Это делает его привлекательным для многих приложений, таких как голосовые помощники, системы отчёта слов и устройства связи на мобильных платформах. Благодаря использованию легковесной архитектуры, метод обеспечивает низкую задержку и высокую эффективость, делая его оптимальным выбором для мобильных приложений. #### Выводы Выполн

Abstract

Speech denoising (SD) is an important task of many, if not all, modern signal processing chains used in devices and for everyday-life applications. While there are many published and powerful deep neural network (DNN)-based methods for SD, few are optimized for resource-constrained platforms such as mobile devices. Additionally, most DNN-based methods for SD are not focusing on full-band (FB) signals, i.e. having 48 kHz sampling rate, and/or low latency cases. In this paper we present a causal, low latency, and lightweight DNN-based method for full-band SD, leveraging both short and long temporal patterns. The method is based on a modified UNet architecture employing look-back frames, temporal spanning of convolutional kernels, and recurrent neural networks for exploiting short and long temporal patterns in the signal and estimated denoising mask. The DNN operates on a causal frame-by-frame basis taking as an input the STFT magnitude, utilizes inverted bottlenecks inspired by MobileNet, employs causal instance normalization for channel-wise normalization, and achieves a real-time factor below 0.02 when deployed on a modern mobile phone. The proposed method is evaluated using established speech denoising metrics and publicly available datasets, demonstrating its effectiveness in achieving an (SI-)SDR value that outperforms existing FB and low latency SD methods.

Ссылки и действия

Связанные статьи

Mitigating data replication in text-to-audio generative diffusion models through...

#### Контекст Генерирующие модели звука, основанные на технологии текст-то-аудио, набирают популярность в сферах, где т...

2025-09-20

Real-Time Streaming Mel Vocoding with Generative Flow Matching

## Контекст Метод Mel vocoding, или восстановление аудиогруппы из Mel-магнитудного спектрограммы, является важной задач...

2025-09-20