Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Long and Short Temporal Patterns
2509.05079v1
eess.AS, cs.LG, cs.SD, eess.SP
2025-09-09
Авторы:
Konstantinos Drossos, Mikko Heikkinen, Paschalis Tsiaflakis
Резюме на русском
#### Контекст
Звуковое очищение (speech denoising, SD) является важной задачей для многих современных сигнальных обработчиков, используемых в устройствах для повседневных целей. Несмотря на то, что существует много DNN-based методов для SD, большинство из них не предназначены для быстродействия на ресурсно-ограниченных платформах, таких как мобильные устройства. Более того, немногие из этих методов сосредоточены на обработке полнополосных (full-band, FB) сигналов с высокой частотой дискретизации (48 кГц) или требуют низкой задержки. Этот труд подробно рассматривает разработку легковесного DNN-based метода для FB SD, который эффективно использует как короткие, так и длинные временные зависимости в сигнале и его оценке.
#### Метод
Метод основывается на модифицированной архитектуре UNet, которая включает в себя look-back frames, расширенные как вдоль, так и поперёк окна звукового сигнала. Архитектура также включает инвертированные бутленки (inverted bottlenecks), имитирующие MobileNet, каскадные сверточные сети с рекуррентными нейронными сетями (RNN) для обработки длинных и коротких временных зависимостей. Учитывая природу SD в режиме реального времени, метод работает кадрово (frame-by-frame) и использует STFT-матрицу звука в качестве входного параметра. Для нормализации каналов применяется каскадная инстансная нормализация (causal instance normalization). Результатом модели является рекуррентная оценка маски дезинформации, используемой для очистки звукового сигнала.
#### Результаты
Для проверки разработанного метода использовались различные спектрограммы (STFT) с полнополостными сигналами (48 кГц) из открытых источников данных. Оптимизированная модель показала высокую эффективность, достигая значительного улучшения в метриках (SI-)SDR по сравнению с другими методами FB SD с низкой задержкой. Эти результаты достигнуты благодаря интеграции как коротких, так и длинных временных зависимостей, а также благодаря оптимизации архитектуры с учетом ресурсов реального времени.
#### Значимость
Разработанный метод имеет широкие применения в области обработки звука, включая мобильные устройства, смарт-гаджеты и устройства с ограниченными ресурсами. Он эффективно решает проблему SD в режиме реального времени, при оптимальном балансе между качеством и скоростью. Это делает его привлекательным для многих приложений, таких как голосовые помощники, системы отчёта слов и устройства связи на мобильных платформах. Благодаря использованию легковесной архитектуры, метод обеспечивает низкую задержку и высокую эффективость, делая его оптимальным выбором для мобильных приложений.
#### Выводы
Выполн
Abstract
Speech denoising (SD) is an important task of many, if not all, modern signal
processing chains used in devices and for everyday-life applications. While
there are many published and powerful deep neural network (DNN)-based methods
for SD, few are optimized for resource-constrained platforms such as mobile
devices. Additionally, most DNN-based methods for SD are not focusing on
full-band (FB) signals, i.e. having 48 kHz sampling rate, and/or low latency
cases. In this paper we present a causal, low latency, and lightweight
DNN-based method for full-band SD, leveraging both short and long temporal
patterns. The method is based on a modified UNet architecture employing
look-back frames, temporal spanning of convolutional kernels, and recurrent
neural networks for exploiting short and long temporal patterns in the signal
and estimated denoising mask. The DNN operates on a causal frame-by-frame basis
taking as an input the STFT magnitude, utilizes inverted bottlenecks inspired
by MobileNet, employs causal instance normalization for channel-wise
normalization, and achieves a real-time factor below 0.02 when deployed on a
modern mobile phone. The proposed method is evaluated using established speech
denoising metrics and publicly available datasets, demonstrating its
effectiveness in achieving an (SI-)SDR value that outperforms existing FB and
low latency SD methods.