Astra: A Multi-Agent System for GPU Kernel Performance Optimization
2509.07506v1
cs.DC, cs.AI, cs.CL, cs.LG, cs.SE
2025-09-11
Авторы:
Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken
Резюме на русском
## Контекст
GPU kernel optimization является ключевым вопросом в области высокопроизводительных вычислений и машинного обучения. Эффективные GPU-ядра способствуют ускорению обучения и работы больших языковых моделей (LLM). Однако достижение высокой производительности часто требует значительных усилий вручную при настройке или использовании компиляторов. Даже с использованием существующих систем оптимизации кода, таких как LLMs для генерации CUDA-кода, получение оптимальной производительности ядра остается сложной задачей. Многие из этих подходов ориентируются на преобразование высокоуровневых спецификаций в CUDA-код. Но потребность в оптимальной производительности ядер для ЛЛМ приводит к новым аспектам, которые не учтены в существующих подходах. Мы предлагаем Astra, первую систему на основе многоагентных LLM для GPU-ядер, которая работает на основе существующих CUDA-кодов, а не на основе преобразования PyTorch-модулей.
## Метод
Astra представляет собой многоагентную систему на основе LLM, которая применяет сотрудничество между агентами для кодовой генерации, тестирования, профилирования и планирования. Каждый агент отвечает за конкретный аспект оптимизации кода, такой как преобразование циклов, оптимизация доступа к памяти, использование CUDA-инструментов и применение быстрых математических операций. Исходные CUDA-коды извлекаются из SGLang, широко используемого фреймворка для серверного применения ЛЛМ. Агенты используют LLM для проведения экспериментов, профилирования, генерации новых вариантов кода и выбора оптимальных решений. Метод заключается в итеративном улучшении производительности ядер с помощью агентов, которые совместно решают задачи кодирования и профилирования.
## Результаты
На кубах SGLang Astra достигает среднего ускорения 1.32x при использовании стилистического модели OpenAI o4-mini. Детальная случайная стадия показывает, что LLM-система может автономно применять циклические преобразования, оптимизировать доступ к памяти, использовать CUDA-инструменты и применять быстрые математические операции. Эти меры приводят к значительным улучшениям производительности. На основе экспериментов было показано, что Astra может значительно повысить производительность GPU-ядер без ручного вмешательства, что демонстрирует потенциал многоагентных LLM-систем в области оптимизации GPU-кода.
## Значимость
Astra может применяться в сферах машинного обучения, высокопроизводительных вычислений и оптимизации GPU. Она предоставляет преимущества в скорости и эффективности в кодировании ядер GPU без ручного вмешательства. Это может привести к значительному сокращению времени и ресурсов
Abstract
GPU kernel optimization has long been a central challenge at the intersection
of high-performance computing and machine learning. Efficient kernels are
crucial for accelerating large language model (LLM) training and serving, yet
attaining high performance typically requires extensive manual tuning.
Compiler-based systems reduce some of this burden, but still demand substantial
manual design and engineering effort. Recently, researchers have explored using
LLMs for GPU kernel generation, though prior work has largely focused on
translating high-level PyTorch modules into CUDA code. In this work, we
introduce Astra, the first LLM-based multi-agent system for GPU kernel
optimization. Unlike previous approaches, Astra starts from existing CUDA
implementations extracted from SGLang, a widely deployed framework for serving
LLMs, rather than treating PyTorch modules as the specification. Within Astra,
specialized LLM agents collaborate through iterative code generation, testing,
profiling, and planning to produce kernels that are both correct and
high-performance. On kernels from SGLang, Astra achieves an average speedup of
1.32x using zero-shot prompting with OpenAI o4-mini. A detailed case study
further demonstrates that LLMs can autonomously apply loop transformations,
optimize memory access patterns, exploit CUDA intrinsics, and leverage fast
math operations to yield substantial performance gains. Our work highlights
multi-agent LLM systems as a promising new paradigm for GPU kernel
optimization.