#### Контекст
Современные hearable устройства (например, наушники) становятся все более сложными, предоставляя пользователям различные функции, включая звуковую сепарацию (разделение говорящих из шума). Эти возможности могут существенно улучшить слуховые функции и обеспечить более удобную и эффективную связь. Однако, существующие решения для разделения речи, основанные на нейронных сетях, не могут выполнять задачи разделения речи в реальном времени на миниатюрных нейронных акселераторах (например, GAP9), которые характеризуются ограниченными вычислительными возможностями. Это ставит перед разработчиками проблему: как создать модель, которая была бы как можно проще и эффективнее, чтобы работала на этих устройствах.
#### Метод
TF-MLPNet — это модель, разработанная с учетом ограничений производительности миниатюрных устройств. Она работает во времени-частотной области, где каждая часть аудиосигнала (кадр) разбивается на частотные компоненты. Далее, для каждого частотного диапазона применяются сверточные слои, которые оперируют с каналами, а для каждого канала — полносвязные слои, обрабатывающие кадр как полностью. Этот структурный подход позволяет уменьшить количество вычислений, необходимых для работы модели. Для увеличения эффективности используется микроскопическая тренировка с многоуровневым параллелизмом. Это позволяет модели обрабатывать звуковые фрагменты в реальном времени на GAP9. Модель также может работать на минимальном количестве памяти, что делает ее идеальной для миниатюрных девайсов.
#### Результаты
Замеры производительности TF-MLPNet показали, что она может обрабатывать 6 мс аудио фрагментов в реальном времени на GAP9. Результаты показали, что модель обеспечивает значительное улучшение в скорости и эффективности при сравнении с предыдущими решениями. Например, скорость работы вышла больше 3,5-4 раз по сравнению с потоковыми моделями, ранее применявшимися в сфере разделения речи. Такой уровень производительности делает TF-MLPNet идеальной для применения в hearable устройствах.
#### Значимость
TF-MLPNet открывает новые возможности для звуковой сепарации в hearable устройствах. Она позволяет реализовать функции, такие как непрерывное разделение речи в шумных условиях или выделение целевого речи в многоголосной среде. Модель эффективна, не только по скорости, но и по степени использования ресурсов процессора, что делает ее подходящей для устройств с ограниченной мощностью. Это может влиять на развитие клинических приложений (например, для людей с ухудшенным слухом), коммуникационных технологий (например, для интеллектуальных голографических у