LEGO: Spatial Accelerator Generation and Optimization for Tensor Applications

2509.12053v1 cs.AR, cs.AI, cs.LG 2025-09-17
Авторы:

Yujun Lin, Zhekai Zhang, Song Han

Резюме на русском

## Контекст Современные тензорные приложения, особенно фундаментальные модели и приложения в области генеративного ИИ, требуют многомодального ввода (образов и языка), что приводит к повышению требований к гибкой архитектуре акселераторов. Существующие фреймворки сталкиваются с проблемой компромисса между гибкостью проектирования и производительностью генерации RTL: либо они ограничены в нюансах, либо не могут автоматически генерировать RTL. Для решения этой проблемы мы предлагаем фреймворк LEGO, который автоматически генерирует специализированные архитектуры для тензорных приложений и выводит готовый к синтезу RTL-код. Он не требует ручной разработки шаблонов RTL, что позволяет увеличить эффективность разработки. ## Метод LEGO представляет собой двухуровневую архитектуру: спереди и сзади. В представлении спереди, фреймворк использует аффинное преобразование для исследования взаимосвязи между функциональными единицами, синтезирует систему памяти и объединяет различные распределенные данные с помощью анализа повторного использования данных. В представлении сзади, фреймворк преобразует граф железа на уровне примитивов, выполняет оптимизации на уровне низкого уровня и применяет линейные алгоритмы программирования для оптимального вставления регистров труб и уменьшения накладных расходов при переключении распределенных данных. ## Результаты Мы провели эксперименты для оценки производительности и энергоэффективности LEGO. Он достиг 3.2x скоростного прироста и 2.4x энергоэффективности по сравнению с Gemmini, предшествующим решением. Фреймворк также продемонстрировал универсальность, генерируя архитектуру для различных моделей фундаментальных приложений в области генеративного ИИ. Эти результаты подтверждают эффективность LEGO в адаптации к различным требованиям моделей. ## Значимость LEGO может применяться в сфере развития акселераторов для генеративных моделей ИИ, видео- и изображенческих приложений. Он предлагает высокую гибкость в проектировании, снижает время шейпинга и повышает производительность и энергоэффективность. Это может привести к значительным преимуществам в быстродействии и энергосбережении для приложений, требующих высокой производительности и эффективности. ## Выводы Результаты нашего исследования показали, что LEGO является эффективным инструментом для автоматического генерирования архитектур для тензорных приложений. Мы планируем расширить возможности фреймворка, включив дополнительные оптимизации и поддержку дополнительных архитектур для более широкого спект

Abstract

Modern tensor applications, especially foundation models and generative AI applications require multiple input modalities (both vision and language), which increases the demand for flexible accelerator architecture. Existing frameworks suffer from the trade-off between design flexibility and productivity of RTL generation: either limited to very few hand-written templates or cannot automatically generate the RTL. To address this challenge, we propose the LEGO framework, which targets tensor applications and automatically generates spatial architecture design and outputs synthesizable RTL code without handwritten RTL design templates. Leveraging the affine-transformation-based architecture representation, LEGO front end finds interconnections between function units, synthesizes the memory system, and fuses different spatial dataflow designs based on data reuse analysis. LEGO back end then translates the hardware in a primitive-level graph to perform lower-level optimizations, and applies a set of linear-programming algorithms to optimally insert pipeline registers and reduce the overhead of unused logic when switching spatial dataflows. Our evaluation demonstrates that LEGO can achieve 3.2x speedup and 2.4x energy efficiency compared to previous work Gemmini, and can generate one architecture for diverse modern foundation models in generative AI applications.

Ссылки и действия

Связанные статьи

eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innov...

#### Контекст Активное развитие интеллектуальных систем на основе глубоких нейронных сетей приводит к появлению новых т...

2025-09-20

HPD: Hybrid Projection Decomposition for Robust State Space Models on Analog CIM...

## Контекст State Space Models (SSMs) являются эффективными альтернативами традиционным последовательностным моделям в о...

2025-08-19