An Open-Source HW-SW Co-Development Framework Enabling Efficient Multi-Accelerator Systems

2508.14582v1 cs.AR, cs.AI 2025-08-22

Авторы:

Ryan Albert Antonio, Joren Dumoulin, Xiaoling Yi, Josse Van Delm, Yunhao Deng, Guilherme Paim, Marian Verhelst

Резюме на русском

#### Контекст Современные вычислительные системы стремятся к производительности и эффективности, часто использующие разнородные ускорители (accelerators) для решения различных задач, включая обработку естественного языка, распознавание изображений и другие AI-задачи. Однако существующие системы часто сталкиваются с проблемами взаимодействия между программным и аппаратным обеспечением, что приводит к уменьшению эффективности и сложности интеграции. Эти проблемы становятся особенно актуальными при разработке систем с множеством ускорителей, где необходима эффективная многозадачность и минимальная задержка. Наша мотивация заключается в разработке универсального и открытого фреймворка, который обеспечивает эффективное взаимодействие между программным и аппаратным обеспечением, повышает эффективность и упрощает развитие и развертывание систем с множеством ускорителей. #### Метод SNAX — это открытый HW-SW фреймворк, который реализует новую схему гибридной связи (hybrid-coupling), состоящую из асинхронного управления и тесной связи данных. Он включает в себя модули аппаратного обеспечения, разработанные для увеличения эффективности ускорителей. Фреймворк также имеет подключаемую MLIR-основную компиляцию, которая автоматизирует различные задачи управления системой. Эта архитектура позволяет легко интегрировать новые ускорители, а также упрощает программирование и управление системой. Фреймворк разработан с учетом гибкости и масштабируемости, чтобы поддерживать разнообразные AI-задачи и рабочие нагрузки. #### Результаты Мы провели исследования с использованием различных ускорителей и AI-задач, включая нейронные сети. Наши результаты показывают, что SNAX обеспечивает высокую эффективность и гибкость. В частности, на проведенных экспериментах увеличение производительности сетей нейронных сетей достигло более чем 10 раз по сравнению с другими системами, при этом эффективность использования ускорителей составила более 90% при полной нагрузке. Это достигается благодаря улучшенной системе управления ресурсами и эффективной интеграции программного и аппаратного обеспечения. #### Значимость Фреймворк SNAX может применяться в различных областях, включая распознавание речи, робототехнику, искусственный интеллект и другие AI-задачи, где необходима высокая производительность и эффективное использование ресурсов. Одним из основных преимуществ является улучшение производительности и гибкость в интеграции новых ускорителей. Это может привести к более быстрому развертыванию и эффективному и

Abstract

Heterogeneous accelerator-centric compute clusters are emerging as efficient solutions for diverse AI workloads. However, current integration strategies often compromise data movement efficiency and encounter compatibility issues in hardware and software. This prevents a unified approach that balances performance and ease of use. To this end, we present SNAX, an open-source integrated HW-SW framework enabling efficient multi-accelerator platforms through a novel hybrid-coupling scheme, consisting of loosely coupled asynchronous control and tightly coupled data access. SNAX brings reusable hardware modules designed to enhance compute accelerator utilization, and its customizable MLIR-based compiler to automate key system management tasks, jointly enabling rapid development and deployment of customized multi-accelerator compute clusters. Through extensive experimentation, we demonstrate SNAX's efficiency and flexibility in a low-power heterogeneous SoC. Accelerators can easily be integrated and programmed to achieve > 10x improvement in neural network performance compared to other accelerator systems while maintaining accelerator utilization of > 90% in full system operation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

An Open-Source HW-SW Co-Development Framework Enabling Efficient Multi-Accelerator Systems

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Declarative Synthesis and Multi-Objective Optimization of Stripboard Circuit Lay...

GAVINA: flexible aggressive undervolting for bit-serial mixed-precision DNN acce...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Ac...

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stoch...

Навигация