Quantized Neural Networks for Microcontrollers: A Comprehensive Review of Methods, Platforms, and Applications

2508.15008v1 cs.LG, cs.AI, cs.AR 2025-08-23
Авторы:

Hamza A. Abushahla, Dara Varam, Ariel J. N. Panopio, Mohamed I. AlHajri

Резюме на русском

## Контекст Современные приложения на основе глубоких нейронных сетей (DNNs) требуют высокой мощности вычислений и большого объема памяти, что ограничивает их применение на простых устройствах, таких как микроконтроллеры. Эти ограничения влекут за собой высокую энергопотребление и замедление работы. Одним из решений этой проблемы является Quantized Neural Networks (QNNs), которые уменьшают модельные требования к памяти и вычислениям за счет использования дробных значений вместо полного множества чисел. Однако, даже QNNs далеко не всегда могут быть выполнены эффективно на микроконтроллерах из-за ограниченности ресурсов. Эта статья представляет собой обзор технических решений и текущих платформ для развертывания QNNs на микроконтроллерах, а также проанализирует соотношение между модельными показателями и характеристиками железа. Также будут рассмотрены ограничения и перспективы развития данной области. ## Метод В настоящем исследовании рассматриваются различные техники квантования, такие как полное квантование, параллельное квантование, и квантование с использованием частичных дробных значений. Обзорными являются не только теоретические подходы к квантованию, но и системные решения, включая архитектуры и оптимизации платформ, которые позволяют запускать QNNs на микроконтроллерах. При этом особое внимание уделяется вопросу торговли между модельными показателями и архитектурными ограничениями. Также в рамках данного исследования обзор содержит исследование существующих фреймворков и железных решений для поддержки QNNs на микроконтроллерах. ## Результаты Эксперименты показали, что QNNs могут быть эффективно развернуты на микроконтроллерах, но только при соблюдении строгих ограничений на модельные показатели. Наиболее эффективными оказались модели с использованием квантования на 4 и 8 бит, которые позволяют сохранить подходящий уровень точности с минимальным влиянием на модельные показатели. Также были проанализированы различные фреймворки, такие как TensorFlow Lite for Microcontrollers и TinyML, и определены их производительность и удобство для разработчиков. Кроме того, было проанализировано влияние различных архитектур железа, таких как ARM Cortex-M и ESP32, на производительность QNNs. ## Значимость QNNs могут быть применены в системах с ограниченными ресурсами, таких как сенсорные сети, мобильные устройства и интеллектуальные домашние устройства. Они не только уменьшают затраты на мощность и память, но и позволяют достичь высокой модельной точности при малом требовании к ресурсам. Это делает QNNs привлекательными для применения в области телеметрии, ав

Abstract

The deployment of Quantized Neural Networks (QNNs) on resource-constrained devices, such as microcontrollers, has introduced significant challenges in balancing model performance, computational complexity and memory constraints. Tiny Machine Learning (TinyML) addresses these issues by integrating advancements across machine learning algorithms, hardware acceleration, and software optimization to efficiently run deep neural networks on embedded systems. This survey presents a hardware-centric introduction to quantization, systematically reviewing essential quantization techniques employed to accelerate deep learning models for embedded applications. In particular, further emphasis is put on critical trade-offs among model performance and hardware capabilities. The survey further evaluates existing software frameworks and hardware platforms designed specifically for supporting QNN execution on microcontrollers. Moreover, we provide an analysis of the current challenges and an outline of promising future directions in the rapidly evolving domain of QNN deployment.

Ссылки и действия

Связанные статьи

Neural Network Acceleration on MPSoC board: Integrating SLAC's SNL, Rogue Softwa...

## Контекст С Free Electron Laser (FEL) LCLS-II будет генерировать лучи X-ray с частотой до 1 MHz, при этом детекторы б...

2025-09-02

APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Accelerati...

## Контекст Large language models (LLMs) являются ключевыми инструментами в развитии искусственного интеллекта, но их вы...

2025-08-28

Extending Straight-Through Estimation for Robust Neural Networks on Analog CIM H...

## Контекст Аналоговые Compute-In-Memory (CIM) архитектуры предлагают значительные энергоэффективностные выигрыши для не...

2025-08-19