MiCo: End-to-End Mixed Precision Neural Network Co-Exploration Framework for Edge AI

2508.09500v1 cs.LG, cs.AR 2025-08-15
Авторы:

Zijun Jiang, Yangdi Lyu

Резюме на русском

#### Контекст Сжатие моделей нейронных сетей для использования на устройствах крайне важно для обеспечения эффективной работы систем на основе машинного обучения в реальном времени на ограниченных ресурсах. Одной из популярных техник для достижения этой цели является микроскопическое сжатие. Оно позволяет уменьшить размер моделей и ускорить их выполнение без заметной потери точности. Однако классические подходы к микроскопическому сжатию ограничены в своей гибкости и эффективности, не учитывая всех факторов, влияющих на получение оптимальной точности и производительности. Также не существует полностью оптимизированных решений для целостного поиска и развертывания моделей с микроскопическим сжатием. Данная статья посвящена разработке фреймворка MiCo, предназначенного для решения этих проблем. #### Метод MiCo предлагает новую методологию для поиска оптимальных схем микроскопического сжатия с высокой точностью и минимальным временем отклика. Основной алгоритм оптимизации использует градиентный подход для поиска наилучших параметров сжатия для каждого слоя сети. Для оценки влияния различных схем сжатия на производительность используется модель оценки латентности на основе железа. Эта модель позволяет сконцентрироваться на характеристиках различных устройств. Инновационной частью работы является полностью автоматизированной система развертывания, позволяющая превратить модели PyTorch в без System C-коды, обеспечивая быструю и точную работу на реальном оборудовании. #### Результаты Для тестирования MiCo были проведены эксперименты на нескольких классических моделях нейронных сетей, таких как ResNet и MobileNet, применяемых к задачам распознавания изображений. Модели были тренированы с использованием различных схем микроскопического сжатия, включая знакомые схемы, такие как 8-битный и 4-битный квантизации. Результаты показали, что MiCo существенно превосходит существующие методы в точности и скорости работы на реальном оборудовании. Особенно выдающимися результатами были достигнуты при использовании 4-битного сжатия с помощью MiCo, что позволило достичь максимального соотношения точности и быстродействия. #### Значимость MiCo представляет собой значительный шаг в области развития микроскопического сжатия для edge AI. Он может применяться в различных приложениях, включая распознавание речи, обработку изображений и технологии видеоанализа на девайсах с ограниченными ресурсами. За счет того, что MiCo автоматизирует поиск оптимальной схемы сжатия и позволяет быстро развернуть модели на реальном железе, он существенно сокращает время и с

Abstract

Quantized Neural Networks (QNN) with extremely low-bitwidth data have proven promising in efficient storage and computation on edge devices. To further reduce the accuracy drop while increasing speedup, layer-wise mixed-precision quantization (MPQ) becomes a popular solution. However, existing algorithms for exploring MPQ schemes are limited in flexibility and efficiency. Comprehending the complex impacts of different MPQ schemes on post-training quantization and quantization-aware training results is a challenge for conventional methods. Furthermore, an end-to-end framework for the optimization and deployment of MPQ models is missing in existing work. In this paper, we propose the MiCo framework, a holistic MPQ exploration and deployment framework for edge AI applications. The framework adopts a novel optimization algorithm to search for optimal quantization schemes with the highest accuracies while meeting latency constraints. Hardware-aware latency models are built for different hardware targets to enable fast explorations. After the exploration, the framework enables direct deployment from PyTorch MPQ models to bare-metal C codes, leading to end-to-end speedup with minimal accuracy drops.

Ссылки и действия