End-to-End Efficiency in Keyword Spotting: A System-Level Approach for Embedded Microcontrollers

2509.07051v1 cs.SD, cs.LG 2025-09-12

Авторы:

Pietro Bartoli, Tommaso Bondini, Christian Veronesi, Andrea Giudici, Niccolò Antonello, Franco Zappa

Резюме на русском

## Контекст Keyword spotting (KWS) является ключевым инструментом для взаимодействия без рук в эmbedded и IoT-устройствах, где ограничения по памяти и энергопотреблению подвергают научным исследованиям и практическим реализациям выдающийся давление. Несмотря на то, что существуют легковесные нейронные сети, позволяющие реализовать эффективные решения для таких устройств, есть недостаточное понимание того, как оптимизировать всю процессуальную цепочку, от аудиопреобразований до нейроинференции. Эта проблема становится актуальной в ограниченных ресурсах, таких как микроконтроллеры (MCU). Целью данной работы является разработка и оценка эффективных методов для реализации KWS на MCU с учетом всей цепочки обработки данных. ## Метод В данной работе рассматриваются несколько легковесных архитектур нейронных сетей, включая DS-CNN, LiCoNet и TENet, а также новую модель Typman-KWS (TKWS), основанную на MobileNet. Наша модель TKWS последовательно обрабатывает сигнал, начиная с преобразований в Mel-Frequency Cepstral Coefficients (MFCC), затем проходит через нейронную нейронную сеть и завершает работу с выводом ключевых слов. Мы оцениваем эти модели на трех платформах STM32 (N6, H7 и U5), которые отличаются по производительности и возможностям ускорения ИИ. Наш подход позволяет оценить не только модель, но и влияние параметров обработки (feature extraction) и особенностей архитектуры устройства на общую эффективность. ## Результаты Наши эксперименты показали, что TKWS с тремя residual blocks достигает F1-метрики до 92.4% при 14.4k параметрах, что значительно сокращает объем памяти, необходимый для модели, без существенного потери точности. Мы также проанализировали энергопотребление и задержку на каждой платформе, показав, что использование ускоренных ИИ-вычислений на N6-платформе приводит к наилучшему energy-delay product (EDP). Это значит, что архитектура TKWS может обеспечить высокую точность real-time KWS даже на ресурсоподготовленных микроконтроллерах. ## Значимость Результаты данного исследования имеют широкое применение в IoT-устройствах, автоматизации и прочих системах с ограниченными ресурсами. Мы показали, что оптимальное развертывание KWS требует учета не только модели, но и параметров этапа feature extraction, а также особенностей спецификации MCU. Наши результаты покажут, как эти факторы влияют на производительность и эффективность реальных систем. ## Выводы Мы показали, что эффективность KWS зависит не только от модели, но и от всей обработке данных, включая feature extraction и железо-ориентированные оптимизации. Наша архитектура TKWS, в комбинации с N6 MCU, доказывает, что можно достичь высо

Abstract

Keyword spotting (KWS) is a key enabling technology for hands-free interaction in embedded and IoT devices, where stringent memory and energy constraints challenge the deployment of AI-enabeld devices. In this work, we systematically evaluate and compare several state-of-the-art lightweight neural network architectures, including DS-CNN, LiCoNet, and TENet, alongside our proposed Typman-KWS (TKWS) architecture built upon MobileNet, specifically designed for efficient KWS on microcontroller units (MCUs). Unlike prior studies focused solely on model inference, our analysis encompasses the entire processing pipeline, from Mel-Frequency Cepstral Coefficient (MFCC) feature extraction to neural inference, and is benchmarked across three STM32 platforms (N6, H7, and U5). Our results show that TKWS with three residual blocks achieves up to 92.4% F1-score with only 14.4k parameters, reducing memory footprint without compromising the accuracy. Moreover, the N6 MCU with integrated neural acceleration achieves the best energy-delay product (EDP), enabling efficient, low-latency operation even with high-resolution features. Our findings highlight the model accuracy alone does not determine real-world effectiveness; rather, optimal keyword spotting deployments require careful consideration of feature extraction parameters and hardware-specific optimization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

End-to-End Efficiency in Keyword Spotting: A System-Level Approach for Embedded Microcontrollers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regressio...

Generative Multi-modal Feedback for Singing Voice Synthesis Evaluation

Differentiable Attenuation Filters for Feedback Delay Networks

DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

Навигация