TF-MLPNet: Tiny Real-Time Neural Speech Separation

2508.03047v1 cs.SD, cs.LG, eess.AS 2025-08-09
Авторы:

Malek Itani, Tuochao Chen, Shyamnath Gollakota

Резюме на русском

#### Контекст Современные hearable устройства (например, наушники) становятся все более сложными, предоставляя пользователям различные функции, включая звуковую сепарацию (разделение говорящих из шума). Эти возможности могут существенно улучшить слуховые функции и обеспечить более удобную и эффективную связь. Однако, существующие решения для разделения речи, основанные на нейронных сетях, не могут выполнять задачи разделения речи в реальном времени на миниатюрных нейронных акселераторах (например, GAP9), которые характеризуются ограниченными вычислительными возможностями. Это ставит перед разработчиками проблему: как создать модель, которая была бы как можно проще и эффективнее, чтобы работала на этих устройствах. #### Метод TF-MLPNet — это модель, разработанная с учетом ограничений производительности миниатюрных устройств. Она работает во времени-частотной области, где каждая часть аудиосигнала (кадр) разбивается на частотные компоненты. Далее, для каждого частотного диапазона применяются сверточные слои, которые оперируют с каналами, а для каждого канала — полносвязные слои, обрабатывающие кадр как полностью. Этот структурный подход позволяет уменьшить количество вычислений, необходимых для работы модели. Для увеличения эффективности используется микроскопическая тренировка с многоуровневым параллелизмом. Это позволяет модели обрабатывать звуковые фрагменты в реальном времени на GAP9. Модель также может работать на минимальном количестве памяти, что делает ее идеальной для миниатюрных девайсов. #### Результаты Замеры производительности TF-MLPNet показали, что она может обрабатывать 6 мс аудио фрагментов в реальном времени на GAP9. Результаты показали, что модель обеспечивает значительное улучшение в скорости и эффективности при сравнении с предыдущими решениями. Например, скорость работы вышла больше 3,5-4 раз по сравнению с потоковыми моделями, ранее применявшимися в сфере разделения речи. Такой уровень производительности делает TF-MLPNet идеальной для применения в hearable устройствах. #### Значимость TF-MLPNet открывает новые возможности для звуковой сепарации в hearable устройствах. Она позволяет реализовать функции, такие как непрерывное разделение речи в шумных условиях или выделение целевого речи в многоголосной среде. Модель эффективна, не только по скорости, но и по степени использования ресурсов процессора, что делает ее подходящей для устройств с ограниченной мощностью. Это может влиять на развитие клинических приложений (например, для людей с ухудшенным слухом), коммуникационных технологий (например, для интеллектуальных голографических у

Abstract

Speech separation on hearable devices can enable transformative augmented and enhanced hearing capabilities. However, state-of-the-art speech separation networks cannot run in real-time on tiny, low-power neural accelerators designed for hearables, due to their limited compute capabilities. We present TF-MLPNet, the first speech separation network capable of running in real-time on such low-power accelerators while outperforming existing streaming models for blind speech separation and target speech extraction. Our network operates in the time-frequency domain, processing frequency sequences with stacks of fully connected layers that alternate along the channel and frequency dimensions, and independently processing the time sequence at each frequency bin using convolutional layers. Results show that our mixed-precision quantization-aware trained (QAT) model can process 6 ms audio chunks in real-time on the GAP9 processor, achieving a 3.5-4x runtime reduction compared to prior speech separation models.

Ссылки и действия