End-to-End Efficiency in Keyword Spotting: A System-Level Approach for Embedded Microcontrollers
2509.07051v1
cs.SD, cs.LG
2025-09-12
Авторы:
Pietro Bartoli, Tommaso Bondini, Christian Veronesi, Andrea Giudici, Niccolò Antonello, Franco Zappa
Резюме на русском
## Контекст
Keyword spotting (KWS) является ключевым инструментом для взаимодействия без рук в эmbedded и IoT-устройствах, где ограничения по памяти и энергопотреблению подвергают научным исследованиям и практическим реализациям выдающийся давление. Несмотря на то, что существуют легковесные нейронные сети, позволяющие реализовать эффективные решения для таких устройств, есть недостаточное понимание того, как оптимизировать всю процессуальную цепочку, от аудиопреобразований до нейроинференции. Эта проблема становится актуальной в ограниченных ресурсах, таких как микроконтроллеры (MCU). Целью данной работы является разработка и оценка эффективных методов для реализации KWS на MCU с учетом всей цепочки обработки данных.
## Метод
В данной работе рассматриваются несколько легковесных архитектур нейронных сетей, включая DS-CNN, LiCoNet и TENet, а также новую модель Typman-KWS (TKWS), основанную на MobileNet. Наша модель TKWS последовательно обрабатывает сигнал, начиная с преобразований в Mel-Frequency Cepstral Coefficients (MFCC), затем проходит через нейронную нейронную сеть и завершает работу с выводом ключевых слов. Мы оцениваем эти модели на трех платформах STM32 (N6, H7 и U5), которые отличаются по производительности и возможностям ускорения ИИ. Наш подход позволяет оценить не только модель, но и влияние параметров обработки (feature extraction) и особенностей архитектуры устройства на общую эффективность.
## Результаты
Наши эксперименты показали, что TKWS с тремя residual blocks достигает F1-метрики до 92.4% при 14.4k параметрах, что значительно сокращает объем памяти, необходимый для модели, без существенного потери точности. Мы также проанализировали энергопотребление и задержку на каждой платформе, показав, что использование ускоренных ИИ-вычислений на N6-платформе приводит к наилучшему energy-delay product (EDP). Это значит, что архитектура TKWS может обеспечить высокую точность real-time KWS даже на ресурсоподготовленных микроконтроллерах.
## Значимость
Результаты данного исследования имеют широкое применение в IoT-устройствах, автоматизации и прочих системах с ограниченными ресурсами. Мы показали, что оптимальное развертывание KWS требует учета не только модели, но и параметров этапа feature extraction, а также особенностей спецификации MCU. Наши результаты покажут, как эти факторы влияют на производительность и эффективность реальных систем.
## Выводы
Мы показали, что эффективность KWS зависит не только от модели, но и от всей обработке данных, включая feature extraction и железо-ориентированные оптимизации. Наша архитектура TKWS, в комбинации с N6 MCU, доказывает, что можно достичь высо
Abstract
Keyword spotting (KWS) is a key enabling technology for hands-free
interaction in embedded and IoT devices, where stringent memory and energy
constraints challenge the deployment of AI-enabeld devices. In this work, we
systematically evaluate and compare several state-of-the-art lightweight neural
network architectures, including DS-CNN, LiCoNet, and TENet, alongside our
proposed Typman-KWS (TKWS) architecture built upon MobileNet, specifically
designed for efficient KWS on microcontroller units (MCUs). Unlike prior
studies focused solely on model inference, our analysis encompasses the entire
processing pipeline, from Mel-Frequency Cepstral Coefficient (MFCC) feature
extraction to neural inference, and is benchmarked across three STM32 platforms
(N6, H7, and U5). Our results show that TKWS with three residual blocks
achieves up to 92.4% F1-score with only 14.4k parameters, reducing memory
footprint without compromising the accuracy. Moreover, the N6 MCU with
integrated neural acceleration achieves the best energy-delay product (EDP),
enabling efficient, low-latency operation even with high-resolution features.
Our findings highlight the model accuracy alone does not determine real-world
effectiveness; rather, optimal keyword spotting deployments require careful
consideration of feature extraction parameters and hardware-specific
optimization.
Ссылки и действия
Дополнительные ресурсы: