Quantized Neural Networks for Microcontrollers: A Comprehensive Review of Methods, Platforms, and Applications
2508.15008v1
cs.LG, cs.AI, cs.AR
2025-08-23
Авторы:
Hamza A. Abushahla, Dara Varam, Ariel J. N. Panopio, Mohamed I. AlHajri
Резюме на русском
## Контекст
Современные приложения на основе глубоких нейронных сетей (DNNs) требуют высокой мощности вычислений и большого объема памяти, что ограничивает их применение на простых устройствах, таких как микроконтроллеры. Эти ограничения влекут за собой высокую энергопотребление и замедление работы. Одним из решений этой проблемы является Quantized Neural Networks (QNNs), которые уменьшают модельные требования к памяти и вычислениям за счет использования дробных значений вместо полного множества чисел. Однако, даже QNNs далеко не всегда могут быть выполнены эффективно на микроконтроллерах из-за ограниченности ресурсов. Эта статья представляет собой обзор технических решений и текущих платформ для развертывания QNNs на микроконтроллерах, а также проанализирует соотношение между модельными показателями и характеристиками железа. Также будут рассмотрены ограничения и перспективы развития данной области.
## Метод
В настоящем исследовании рассматриваются различные техники квантования, такие как полное квантование, параллельное квантование, и квантование с использованием частичных дробных значений. Обзорными являются не только теоретические подходы к квантованию, но и системные решения, включая архитектуры и оптимизации платформ, которые позволяют запускать QNNs на микроконтроллерах. При этом особое внимание уделяется вопросу торговли между модельными показателями и архитектурными ограничениями. Также в рамках данного исследования обзор содержит исследование существующих фреймворков и железных решений для поддержки QNNs на микроконтроллерах.
## Результаты
Эксперименты показали, что QNNs могут быть эффективно развернуты на микроконтроллерах, но только при соблюдении строгих ограничений на модельные показатели. Наиболее эффективными оказались модели с использованием квантования на 4 и 8 бит, которые позволяют сохранить подходящий уровень точности с минимальным влиянием на модельные показатели. Также были проанализированы различные фреймворки, такие как TensorFlow Lite for Microcontrollers и TinyML, и определены их производительность и удобство для разработчиков. Кроме того, было проанализировано влияние различных архитектур железа, таких как ARM Cortex-M и ESP32, на производительность QNNs.
## Значимость
QNNs могут быть применены в системах с ограниченными ресурсами, таких как сенсорные сети, мобильные устройства и интеллектуальные домашние устройства. Они не только уменьшают затраты на мощность и память, но и позволяют достичь высокой модельной точности при малом требовании к ресурсам. Это делает QNNs привлекательными для применения в области телеметрии, ав
Abstract
The deployment of Quantized Neural Networks (QNNs) on resource-constrained
devices, such as microcontrollers, has introduced significant challenges in
balancing model performance, computational complexity and memory constraints.
Tiny Machine Learning (TinyML) addresses these issues by integrating
advancements across machine learning algorithms, hardware acceleration, and
software optimization to efficiently run deep neural networks on embedded
systems. This survey presents a hardware-centric introduction to quantization,
systematically reviewing essential quantization techniques employed to
accelerate deep learning models for embedded applications. In particular,
further emphasis is put on critical trade-offs among model performance and
hardware capabilities. The survey further evaluates existing software
frameworks and hardware platforms designed specifically for supporting QNN
execution on microcontrollers. Moreover, we provide an analysis of the current
challenges and an outline of promising future directions in the rapidly
evolving domain of QNN deployment.
Ссылки и действия
Дополнительные ресурсы: