LEGO: Spatial Accelerator Generation and Optimization for Tensor Applications
2509.12053v1
cs.AR, cs.AI, cs.LG
2025-09-17
Авторы:
Yujun Lin, Zhekai Zhang, Song Han
Резюме на русском
## Контекст
Современные тензорные приложения, особенно фундаментальные модели и приложения в области генеративного ИИ, требуют многомодального ввода (образов и языка), что приводит к повышению требований к гибкой архитектуре акселераторов. Существующие фреймворки сталкиваются с проблемой компромисса между гибкостью проектирования и производительностью генерации RTL: либо они ограничены в нюансах, либо не могут автоматически генерировать RTL. Для решения этой проблемы мы предлагаем фреймворк LEGO, который автоматически генерирует специализированные архитектуры для тензорных приложений и выводит готовый к синтезу RTL-код. Он не требует ручной разработки шаблонов RTL, что позволяет увеличить эффективность разработки.
## Метод
LEGO представляет собой двухуровневую архитектуру: спереди и сзади. В представлении спереди, фреймворк использует аффинное преобразование для исследования взаимосвязи между функциональными единицами, синтезирует систему памяти и объединяет различные распределенные данные с помощью анализа повторного использования данных. В представлении сзади, фреймворк преобразует граф железа на уровне примитивов, выполняет оптимизации на уровне низкого уровня и применяет линейные алгоритмы программирования для оптимального вставления регистров труб и уменьшения накладных расходов при переключении распределенных данных.
## Результаты
Мы провели эксперименты для оценки производительности и энергоэффективности LEGO. Он достиг 3.2x скоростного прироста и 2.4x энергоэффективности по сравнению с Gemmini, предшествующим решением. Фреймворк также продемонстрировал универсальность, генерируя архитектуру для различных моделей фундаментальных приложений в области генеративного ИИ. Эти результаты подтверждают эффективность LEGO в адаптации к различным требованиям моделей.
## Значимость
LEGO может применяться в сфере развития акселераторов для генеративных моделей ИИ, видео- и изображенческих приложений. Он предлагает высокую гибкость в проектировании, снижает время шейпинга и повышает производительность и энергоэффективность. Это может привести к значительным преимуществам в быстродействии и энергосбережении для приложений, требующих высокой производительности и эффективности.
## Выводы
Результаты нашего исследования показали, что LEGO является эффективным инструментом для автоматического генерирования архитектур для тензорных приложений. Мы планируем расширить возможности фреймворка, включив дополнительные оптимизации и поддержку дополнительных архитектур для более широкого спект
Abstract
Modern tensor applications, especially foundation models and generative AI
applications require multiple input modalities (both vision and language),
which increases the demand for flexible accelerator architecture. Existing
frameworks suffer from the trade-off between design flexibility and
productivity of RTL generation: either limited to very few hand-written
templates or cannot automatically generate the RTL. To address this challenge,
we propose the LEGO framework, which targets tensor applications and
automatically generates spatial architecture design and outputs synthesizable
RTL code without handwritten RTL design templates. Leveraging the
affine-transformation-based architecture representation, LEGO front end finds
interconnections between function units, synthesizes the memory system, and
fuses different spatial dataflow designs based on data reuse analysis. LEGO
back end then translates the hardware in a primitive-level graph to perform
lower-level optimizations, and applies a set of linear-programming algorithms
to optimally insert pipeline registers and reduce the overhead of unused logic
when switching spatial dataflows. Our evaluation demonstrates that LEGO can
achieve 3.2x speedup and 2.4x energy efficiency compared to previous work
Gemmini, and can generate one architecture for diverse modern foundation models
in generative AI applications.
Ссылки и действия
Дополнительные ресурсы: