TF-MLPNet: Tiny Real-Time Neural Speech Separation
2508.03047v1
cs.SD, cs.LG, eess.AS
2025-08-09
Авторы:
Malek Itani, Tuochao Chen, Shyamnath Gollakota
Резюме на русском
#### Контекст
Современные hearable устройства (например, наушники) становятся все более сложными, предоставляя пользователям различные функции, включая звуковую сепарацию (разделение говорящих из шума). Эти возможности могут существенно улучшить слуховые функции и обеспечить более удобную и эффективную связь. Однако, существующие решения для разделения речи, основанные на нейронных сетях, не могут выполнять задачи разделения речи в реальном времени на миниатюрных нейронных акселераторах (например, GAP9), которые характеризуются ограниченными вычислительными возможностями. Это ставит перед разработчиками проблему: как создать модель, которая была бы как можно проще и эффективнее, чтобы работала на этих устройствах.
#### Метод
TF-MLPNet — это модель, разработанная с учетом ограничений производительности миниатюрных устройств. Она работает во времени-частотной области, где каждая часть аудиосигнала (кадр) разбивается на частотные компоненты. Далее, для каждого частотного диапазона применяются сверточные слои, которые оперируют с каналами, а для каждого канала — полносвязные слои, обрабатывающие кадр как полностью. Этот структурный подход позволяет уменьшить количество вычислений, необходимых для работы модели. Для увеличения эффективности используется микроскопическая тренировка с многоуровневым параллелизмом. Это позволяет модели обрабатывать звуковые фрагменты в реальном времени на GAP9. Модель также может работать на минимальном количестве памяти, что делает ее идеальной для миниатюрных девайсов.
#### Результаты
Замеры производительности TF-MLPNet показали, что она может обрабатывать 6 мс аудио фрагментов в реальном времени на GAP9. Результаты показали, что модель обеспечивает значительное улучшение в скорости и эффективности при сравнении с предыдущими решениями. Например, скорость работы вышла больше 3,5-4 раз по сравнению с потоковыми моделями, ранее применявшимися в сфере разделения речи. Такой уровень производительности делает TF-MLPNet идеальной для применения в hearable устройствах.
#### Значимость
TF-MLPNet открывает новые возможности для звуковой сепарации в hearable устройствах. Она позволяет реализовать функции, такие как непрерывное разделение речи в шумных условиях или выделение целевого речи в многоголосной среде. Модель эффективна, не только по скорости, но и по степени использования ресурсов процессора, что делает ее подходящей для устройств с ограниченной мощностью. Это может влиять на развитие клинических приложений (например, для людей с ухудшенным слухом), коммуникационных технологий (например, для интеллектуальных голографических у
Abstract
Speech separation on hearable devices can enable transformative augmented and
enhanced hearing capabilities. However, state-of-the-art speech separation
networks cannot run in real-time on tiny, low-power neural accelerators
designed for hearables, due to their limited compute capabilities. We present
TF-MLPNet, the first speech separation network capable of running in real-time
on such low-power accelerators while outperforming existing streaming models
for blind speech separation and target speech extraction. Our network operates
in the time-frequency domain, processing frequency sequences with stacks of
fully connected layers that alternate along the channel and frequency
dimensions, and independently processing the time sequence at each frequency
bin using convolutional layers. Results show that our mixed-precision
quantization-aware trained (QAT) model can process 6 ms audio chunks in
real-time on the GAP9 processor, achieving a 3.5-4x runtime reduction compared
to prior speech separation models.
Ссылки и действия
Дополнительные ресурсы: