Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers

2509.17533v1 cs.ET, cs.AI, cs.LG 2025-09-24

Авторы:

Anastasios Fanariotis, Theofanis Orphanoudakis, Vasilis Fotopoulos

Резюме на русском

## Контекст Современные беспроводные и реального времени устройства, оснащенные микроконтроллерами (MCU), широко применяются в различных сферах, включая мобильные устройства, домашние автоматизации и интернет вещей (IoT). Однако развертывание моделей машинного обучения (ML) на таких устройствах сталкивается с ограничениями по энергопотреблению, задержке и памяти. Эти ограничения становятся значительными, особенно при использовании батарейных устройств или при необходимости обеспечения реального времени. Хотя оптимизации программного обеспечения, такие как квантование и усечение моделей, снижают размер моделей и вычисления, новые технологии, такие как централизованные процессоры (NPU), показали себя как эффективное решение для энергоэффективного микроконтроллерового исполнения ML. Целью этой статьи является оценка влияния NPUs на энергоэффективность и производительность MCU-based ML-исполнения, используя платформу ARM Cortex-M55 с Ethos-U55 NPU. ## Метод Эксперименты проводились на платформе ARM Cortex-M55, интегрированной с Ethos-U55 NPU на Alif Semiconductor Ensemble E7 development board. Для точной оценки энергопотребления использовалась методика, включающую три аспекта: перенапряжение входа (GPIO) для синхронизации, определение энергии за вычетом затрат в режиме отдыха и высокоточный цифровой мультиметр для точного измерения. Использовались шесть делегированных моделей ML: MiniResNet, MobileNetV2, FD-MobileNet, MNIST, TinyYolo и SSD-MobileNet. Различные параметры, такие как размер модели, количество операций и память, были измерены для каждой модели, чтобы определить энергоэффективность и производительность NPU-акселерации. ## Результаты Исследования показали значительные выигрыши в энергоэффективности и производительности при использовании NPU для исполнения ML-моделей. Для моделей среднего и крупного размера (таких как MobileNetV2 и SSD-MobileNet), NPU обеспечил уменьшение задержки от 7 раз до 125 раз и сокращение энергопотребления до 143 раз по сравнению с CPU-только режимом. Для небольших моделей (таких как MNIST), задержка уменьшилась вдвое, и энергопотребление сократилось на 6 раз. Благодаря NPU, NPUs также позволили запустить модели, которые ранее не поддерживались CPU, например, SSD-MobileNet, что продемонстрировало новые функции возможностей. ## Значимость Результаты этих исследований имеют значительное значение для областей, требующих батарейных устройств и реального времени, таких как IoT, мобильные устройства и системы с доступом в режиме реального времени. Использование NPU в MCU-based ML-исполнении не только эффективно по отношению к энергии, но также позволяет развертывать более сложные модели, которые ранее

Abstract

The deployment of machine learning (ML) models on microcontrollers (MCUs) is constrained by strict energy, latency, and memory requirements, particularly in battery-operated and real-time edge devices. While software-level optimizations such as quantization and pruning reduce model size and computation, hardware acceleration has emerged as a decisive enabler for efficient embedded inference. This paper evaluates the impact of Neural Processing Units (NPUs) on MCU-based ML execution, using the ARM Cortex-M55 core combined with the Ethos-U55 NPU on the Alif Semiconductor Ensemble E7 development board as a representative platform. A rigorous measurement methodology was employed, incorporating per-inference net energy accounting via GPIO-triggered high-resolution digital multimeter synchronization and idle-state subtraction, ensuring accurate attribution of energy costs. Experimental results across six representative ML models -including MiniResNet, MobileNetV2, FD-MobileNet, MNIST, TinyYolo, and SSD-MobileNet- demonstrate substantial efficiency gains when inference is offloaded to the NPU. For moderate to large networks, latency improvements ranged from 7x to over 125x, with per-inference net energy reductions up to 143x. Notably, the NPU enabled execution of models unsupported on CPU-only paths, such as SSD-MobileNet, highlighting its functional as well as efficiency advantages. These findings establish NPUs as a cornerstone of energy-aware embedded AI, enabling real-time, power-constrained ML inference at the MCU level.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

NEURODNAAI: Neural pipeline approaches for the advancing dna-based information s...

Навигация