MiCo: End-to-End Mixed Precision Neural Network Co-Exploration Framework for Edge AI
2508.09500v1
cs.LG, cs.AR
2025-08-15
Авторы:
Zijun Jiang, Yangdi Lyu
Резюме на русском
#### Контекст
Сжатие моделей нейронных сетей для использования на устройствах крайне важно для обеспечения эффективной работы систем на основе машинного обучения в реальном времени на ограниченных ресурсах. Одной из популярных техник для достижения этой цели является микроскопическое сжатие. Оно позволяет уменьшить размер моделей и ускорить их выполнение без заметной потери точности. Однако классические подходы к микроскопическому сжатию ограничены в своей гибкости и эффективности, не учитывая всех факторов, влияющих на получение оптимальной точности и производительности. Также не существует полностью оптимизированных решений для целостного поиска и развертывания моделей с микроскопическим сжатием. Данная статья посвящена разработке фреймворка MiCo, предназначенного для решения этих проблем.
#### Метод
MiCo предлагает новую методологию для поиска оптимальных схем микроскопического сжатия с высокой точностью и минимальным временем отклика. Основной алгоритм оптимизации использует градиентный подход для поиска наилучших параметров сжатия для каждого слоя сети. Для оценки влияния различных схем сжатия на производительность используется модель оценки латентности на основе железа. Эта модель позволяет сконцентрироваться на характеристиках различных устройств. Инновационной частью работы является полностью автоматизированной система развертывания, позволяющая превратить модели PyTorch в без System C-коды, обеспечивая быструю и точную работу на реальном оборудовании.
#### Результаты
Для тестирования MiCo были проведены эксперименты на нескольких классических моделях нейронных сетей, таких как ResNet и MobileNet, применяемых к задачам распознавания изображений. Модели были тренированы с использованием различных схем микроскопического сжатия, включая знакомые схемы, такие как 8-битный и 4-битный квантизации. Результаты показали, что MiCo существенно превосходит существующие методы в точности и скорости работы на реальном оборудовании. Особенно выдающимися результатами были достигнуты при использовании 4-битного сжатия с помощью MiCo, что позволило достичь максимального соотношения точности и быстродействия.
#### Значимость
MiCo представляет собой значительный шаг в области развития микроскопического сжатия для edge AI. Он может применяться в различных приложениях, включая распознавание речи, обработку изображений и технологии видеоанализа на девайсах с ограниченными ресурсами. За счет того, что MiCo автоматизирует поиск оптимальной схемы сжатия и позволяет быстро развернуть модели на реальном железе, он существенно сокращает время и с
Abstract
Quantized Neural Networks (QNN) with extremely low-bitwidth data have proven
promising in efficient storage and computation on edge devices. To further
reduce the accuracy drop while increasing speedup, layer-wise mixed-precision
quantization (MPQ) becomes a popular solution. However, existing algorithms for
exploring MPQ schemes are limited in flexibility and efficiency. Comprehending
the complex impacts of different MPQ schemes on post-training quantization and
quantization-aware training results is a challenge for conventional methods.
Furthermore, an end-to-end framework for the optimization and deployment of MPQ
models is missing in existing work.
In this paper, we propose the MiCo framework, a holistic MPQ exploration and
deployment framework for edge AI applications. The framework adopts a novel
optimization algorithm to search for optimal quantization schemes with the
highest accuracies while meeting latency constraints. Hardware-aware latency
models are built for different hardware targets to enable fast explorations.
After the exploration, the framework enables direct deployment from PyTorch MPQ
models to bare-metal C codes, leading to end-to-end speedup with minimal
accuracy drops.
Ссылки и действия
Дополнительные ресурсы: