📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken

## Контекст GPU kernel optimization является ключевым вопросом в области высокопроизводительных вычислений и машинного обучения. Эффективные GPU-ядра способствуют ускорению обучения и работы больших языковых моделей (LLM). Однако достижение высокой производительности часто требует значительных усилий вручную при настройке или использовании компиляторов. Даже с использованием существующих систем оптимизации кода, таких как LLMs для генерации CUDA-кода, получение оптимальной производительности ядра остается сложной задачей. Многие из этих подходов ориентируются на преобразование высокоуровневых спецификаций в CUDA-код. Но потребность в оптимальной производительности ядер для ЛЛМ приводит к новым аспектам, которые не учтены в существующих подходах. Мы предлагаем Astra, первую систему на основе многоагентных LLM для GPU-ядер, которая работает на основе существующих CUDA-кодов, а не на основе преобразования PyTorch-модулей. ## Метод Astra представляет собой многоагентную систему на основе LLM, которая применяет сотрудничество между агентами для кодовой генерации, тестирования, профилирования и планирования. Каждый агент отвечает за конкретный аспект оптимизации кода, такой как преобразование циклов, оптимизация доступа к памяти, использование CUDA-инструментов и применение быстрых математических операций. Исходные CUDA-коды извлекаются из SGLang, широко используемого фреймворка для серверного применения ЛЛМ. Агенты используют LLM для проведения экспериментов, профилирования, генерации новых вариантов кода и выбора оптимальных решений. Метод заключается в итеративном улучшении производительности ядер с помощью агентов, которые совместно решают задачи кодирования и профилирования. ## Результаты На кубах SGLang Astra достигает среднего ускорения 1.32x при использовании стилистического модели OpenAI o4-mini. Детальная случайная стадия показывает, что LLM-система может автономно применять циклические преобразования, оптимизировать доступ к памяти, использовать CUDA-инструменты и применять быстрые математические операции. Эти меры приводят к значительным улучшениям производительности. На основе экспериментов было показано, что Astra может значительно повысить производительность GPU-ядер без ручного вмешательства, что демонстрирует потенциал многоагентных LLM-систем в области оптимизации GPU-кода. ## Значимость Astra может применяться в сферах машинного обучения, высокопроизводительных вычислений и оптимизации GPU. Она предоставляет преимущества в скорости и эффективности в кодировании ядер GPU без ручного вмешательства. Это может привести к значительному сокращению времени и ресурсов
Annotation:
GPU kernel optimization has long been a central challenge at the intersection of high-performance computing and machine learning. Efficient kernels are crucial for accelerating large language model (LLM) training and serving, yet attaining high performance typically requires extensive manual tuning. Compiler-based systems reduce some of this burden, but still demand substantial manual design and engineering effort. Recently, researchers have explored using LLMs for GPU kernel generation, though ...
ID: 2509.07506v1 cs.DC, cs.AI, cs.CL, cs.LG, cs.SE