eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations
2509.14388v1
cs.AR, cs.AI, cs.LG
2025-09-20
Авторы:
Lennart Bamberg, Filippo Minnella, Roberto Bosio, Fabrizio Ottati, Yuebin Wang, Jongmin Lee, Luciano Lavagno, Adam Fuks
Резюме на русском
#### Контекст
Активное развитие интеллектуальных систем на основе глубоких нейронных сетей приводит к появлению новых требований к вычислительной мощности и эффективности, особенно в ресурс-ограниченных средах, таких как края сети (edge). Нейропроцессоры (NPUs) возникают как решение для эффективной обработки нейросетевых моделей на краях сети. Однако показатели "на высоте", такие как TOPS (транзакций в секунду), часто оказываются малоинформативными в реальных условиях, так как не соотносятся с фактической эффективностью и часто приводят к значительным издержкам на силиконовый производство. Необходимо развивать архитектуры NPUs, которые будут оптимизированы для эффективного использования вычислительных ресурсов, сохраняя гибкость для различных задач. В этой работе представляется эффективный NPU "eIQ Neutron", интегрированный в современный коммерческий модуль для многоцелевых приложений (MPU), вместе с компилятором, оптимизированным для вычислений и данных.
#### Метод
"eIQ Neutron" использует данные-драйверный подход для оптимизации вычислительных ресурсов и данных. Архитектура NPU основывается на гибкой структуре, которая позволяет адаптироваться к разным типам нейросетевых моделей. Для увеличения эффективности вычислений и уменьшения трафика данных, компилятор работает на основе ограниченной программировальной модели, которая генерирует оптимальные коды для различных типов задач. Эта архитектура позволяет фокусироваться на использовании ресурсов наиболее эффективно, чтобы достичь высокой производительности при ограниченных вычислительных и памятных ресурсах.
#### Результаты
В ходе экспериментов, проведенных на стандартных бенчмарках, "eIQ Neutron" показал средний прирост производительности 1,8 раза (до 4 раз в пиковых условиях) по сравнению с ведущим NPU и компилятором в задачах воспроизведения видео, обработки изображений и других задач. Даже при работе на NPU с двойным объемом вычислительных ресурсов и памяти, "eIQ Neutron" показал до 3,3 раза более высокую производительность. Эти результаты достигнуты благодаря оптимальной организации вычислительных процессов и гибкой архитектуре, которая позволяет использовать ресурсы более эффективно.
#### Значимость
Решение, представленное в этой работе, может быть использовано в различных приложениях, включая обработку реального времени, распознавание речи, распознавание образов и другие задачи, требующие высокой производительности в ресурс-ограниченных средах. Основные преимущества технологии "eIQ Neutron" заключаются в том, что она позволяет повысить эффективность вычислений, сократить расходы на силиконовый
Abstract
Neural Processing Units (NPUs) are key to enabling efficient AI inference in
resource-constrained edge environments. While peak tera operations per second
(TOPS) is often used to gauge performance, it poorly reflects real-world
performance and typically rather correlates with higher silicon cost. To
address this, architects must focus on maximizing compute utilization, without
sacrificing flexibility. This paper presents the eIQ Neutron efficient-NPU,
integrated into a commercial flagship MPU, alongside co-designed compiler
algorithms. The architecture employs a flexible, data-driven design, while the
compiler uses a constrained programming approach to optimize compute and data
movement based on workload characteristics. Compared to the leading embedded
NPU and compiler stack, our solution achieves an average speedup of 1.8x (4x
peak) at equal TOPS and memory resources across standard AI-benchmarks. Even
against NPUs with double the compute and memory resources, Neutron delivers up
to 3.3x higher performance.
Ссылки и действия
Дополнительные ресурсы: