eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations

2509.14388v1 cs.AR, cs.AI, cs.LG 2025-09-20

Авторы:

Lennart Bamberg, Filippo Minnella, Roberto Bosio, Fabrizio Ottati, Yuebin Wang, Jongmin Lee, Luciano Lavagno, Adam Fuks

Резюме на русском

#### Контекст Активное развитие интеллектуальных систем на основе глубоких нейронных сетей приводит к появлению новых требований к вычислительной мощности и эффективности, особенно в ресурс-ограниченных средах, таких как края сети (edge). Нейропроцессоры (NPUs) возникают как решение для эффективной обработки нейросетевых моделей на краях сети. Однако показатели "на высоте", такие как TOPS (транзакций в секунду), часто оказываются малоинформативными в реальных условиях, так как не соотносятся с фактической эффективностью и часто приводят к значительным издержкам на силиконовый производство. Необходимо развивать архитектуры NPUs, которые будут оптимизированы для эффективного использования вычислительных ресурсов, сохраняя гибкость для различных задач. В этой работе представляется эффективный NPU "eIQ Neutron", интегрированный в современный коммерческий модуль для многоцелевых приложений (MPU), вместе с компилятором, оптимизированным для вычислений и данных. #### Метод "eIQ Neutron" использует данные-драйверный подход для оптимизации вычислительных ресурсов и данных. Архитектура NPU основывается на гибкой структуре, которая позволяет адаптироваться к разным типам нейросетевых моделей. Для увеличения эффективности вычислений и уменьшения трафика данных, компилятор работает на основе ограниченной программировальной модели, которая генерирует оптимальные коды для различных типов задач. Эта архитектура позволяет фокусироваться на использовании ресурсов наиболее эффективно, чтобы достичь высокой производительности при ограниченных вычислительных и памятных ресурсах. #### Результаты В ходе экспериментов, проведенных на стандартных бенчмарках, "eIQ Neutron" показал средний прирост производительности 1,8 раза (до 4 раз в пиковых условиях) по сравнению с ведущим NPU и компилятором в задачах воспроизведения видео, обработки изображений и других задач. Даже при работе на NPU с двойным объемом вычислительных ресурсов и памяти, "eIQ Neutron" показал до 3,3 раза более высокую производительность. Эти результаты достигнуты благодаря оптимальной организации вычислительных процессов и гибкой архитектуре, которая позволяет использовать ресурсы более эффективно. #### Значимость Решение, представленное в этой работе, может быть использовано в различных приложениях, включая обработку реального времени, распознавание речи, распознавание образов и другие задачи, требующие высокой производительности в ресурс-ограниченных средах. Основные преимущества технологии "eIQ Neutron" заключаются в том, что она позволяет повысить эффективность вычислений, сократить расходы на силиконовый

Abstract

Neural Processing Units (NPUs) are key to enabling efficient AI inference in resource-constrained edge environments. While peak tera operations per second (TOPS) is often used to gauge performance, it poorly reflects real-world performance and typically rather correlates with higher silicon cost. To address this, architects must focus on maximizing compute utilization, without sacrificing flexibility. This paper presents the eIQ Neutron efficient-NPU, integrated into a commercial flagship MPU, alongside co-designed compiler algorithms. The architecture employs a flexible, data-driven design, while the compiler uses a constrained programming approach to optimize compute and data movement based on workload characteristics. Compared to the leading embedded NPU and compiler stack, our solution achieves an average speedup of 1.8x (4x peak) at equal TOPS and memory resources across standard AI-benchmarks. Even against NPUs with double the compute and memory resources, Neutron delivers up to 3.3x higher performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

The Role of Advanced Computer Architectures in Accelerating Artificial Intellige...

AIM: Software and Hardware Co-design for Architecture-level IR-drop Mitigation i...

Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based ...

LEGO: Spatial Accelerator Generation and Optimization for Tensor Applications

HPD: Hybrid Projection Decomposition for Robust State Space Models on Analog CIM...

Навигация