Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers
2509.17533v1
cs.ET, cs.AI, cs.LG
2025-09-24
Авторы:
Anastasios Fanariotis, Theofanis Orphanoudakis, Vasilis Fotopoulos
Резюме на русском
## Контекст
Современные беспроводные и реального времени устройства, оснащенные микроконтроллерами (MCU), широко применяются в различных сферах, включая мобильные устройства, домашние автоматизации и интернет вещей (IoT). Однако развертывание моделей машинного обучения (ML) на таких устройствах сталкивается с ограничениями по энергопотреблению, задержке и памяти. Эти ограничения становятся значительными, особенно при использовании батарейных устройств или при необходимости обеспечения реального времени. Хотя оптимизации программного обеспечения, такие как квантование и усечение моделей, снижают размер моделей и вычисления, новые технологии, такие как централизованные процессоры (NPU), показали себя как эффективное решение для энергоэффективного микроконтроллерового исполнения ML. Целью этой статьи является оценка влияния NPUs на энергоэффективность и производительность MCU-based ML-исполнения, используя платформу ARM Cortex-M55 с Ethos-U55 NPU.
## Метод
Эксперименты проводились на платформе ARM Cortex-M55, интегрированной с Ethos-U55 NPU на Alif Semiconductor Ensemble E7 development board. Для точной оценки энергопотребления использовалась методика, включающую три аспекта: перенапряжение входа (GPIO) для синхронизации, определение энергии за вычетом затрат в режиме отдыха и высокоточный цифровой мультиметр для точного измерения. Использовались шесть делегированных моделей ML: MiniResNet, MobileNetV2, FD-MobileNet, MNIST, TinyYolo и SSD-MobileNet. Различные параметры, такие как размер модели, количество операций и память, были измерены для каждой модели, чтобы определить энергоэффективность и производительность NPU-акселерации.
## Результаты
Исследования показали значительные выигрыши в энергоэффективности и производительности при использовании NPU для исполнения ML-моделей. Для моделей среднего и крупного размера (таких как MobileNetV2 и SSD-MobileNet), NPU обеспечил уменьшение задержки от 7 раз до 125 раз и сокращение энергопотребления до 143 раз по сравнению с CPU-только режимом. Для небольших моделей (таких как MNIST), задержка уменьшилась вдвое, и энергопотребление сократилось на 6 раз. Благодаря NPU, NPUs также позволили запустить модели, которые ранее не поддерживались CPU, например, SSD-MobileNet, что продемонстрировало новые функции возможностей.
## Значимость
Результаты этих исследований имеют значительное значение для областей, требующих батарейных устройств и реального времени, таких как IoT, мобильные устройства и системы с доступом в режиме реального времени. Использование NPU в MCU-based ML-исполнении не только эффективно по отношению к энергии, но также позволяет развертывать более сложные модели, которые ранее
Abstract
The deployment of machine learning (ML) models on microcontrollers (MCUs) is
constrained by strict energy, latency, and memory requirements, particularly in
battery-operated and real-time edge devices. While software-level optimizations
such as quantization and pruning reduce model size and computation, hardware
acceleration has emerged as a decisive enabler for efficient embedded
inference. This paper evaluates the impact of Neural Processing Units (NPUs) on
MCU-based ML execution, using the ARM Cortex-M55 core combined with the
Ethos-U55 NPU on the Alif Semiconductor Ensemble E7 development board as a
representative platform. A rigorous measurement methodology was employed,
incorporating per-inference net energy accounting via GPIO-triggered
high-resolution digital multimeter synchronization and idle-state subtraction,
ensuring accurate attribution of energy costs. Experimental results across six
representative ML models -including MiniResNet, MobileNetV2, FD-MobileNet,
MNIST, TinyYolo, and SSD-MobileNet- demonstrate substantial efficiency gains
when inference is offloaded to the NPU. For moderate to large networks, latency
improvements ranged from 7x to over 125x, with per-inference net energy
reductions up to 143x. Notably, the NPU enabled execution of models unsupported
on CPU-only paths, such as SSD-MobileNet, highlighting its functional as well
as efficiency advantages. These findings establish NPUs as a cornerstone of
energy-aware embedded AI, enabling real-time, power-constrained ML inference at
the MCU level.
Ссылки и действия
Дополнительные ресурсы: