📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

2025-11-15

Авторы:

Jon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language model (LLM) queries are predominantly processed by frontier models in centralized cloud infrastructure. Rapidly growing demand strains this paradigm, and cloud providers struggle to scale infrastructure at pace. Two advances enable us to rethink this paradigm: small LMs (<=20B active parameters) now achieve competitive performance to frontier models on many tasks, and local accelerators (e.g., Apple M4 Max) run these models at interactive latencies. This raises the question: can l...

ID: 2511.07885v1 cs.DC, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Astra: A Multi-Agent System for GPU Kernel Performance Optimization

2025-09-11

Авторы:

Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken

## Контекст GPU kernel optimization является ключевым вопросом в области высокопроизводительных вычислений и машинного обучения. Эффективные GPU-ядра способствуют ускорению обучения и работы больших языковых моделей (LLM). Однако достижение высокой производительности часто требует значительных усилий вручную при настройке или использовании компиляторов. Даже с использованием существующих систем оптимизации кода, таких как LLMs для генерации CUDA-кода, получение оптимальной производительности ядра остается сложной задачей. Многие из этих подходов ориентируются на преобразование высокоуровневых спецификаций в CUDA-код. Но потребность в оптимальной производительности ядер для ЛЛМ приводит к новым аспектам, которые не учтены в существующих подходах. Мы предлагаем Astra, первую систему на основе многоагентных LLM для GPU-ядер, которая работает на основе существующих CUDA-кодов, а не на основе преобразования PyTorch-модулей. ## Метод Astra представляет собой многоагентную систему на основе LLM, которая применяет сотрудничество между агентами для кодовой генерации, тестирования, профилирования и планирования. Каждый агент отвечает за конкретный аспект оптимизации кода, такой как преобразование циклов, оптимизация доступа к памяти, использование CUDA-инструментов и применение быстрых математических операций. Исходные CUDA-коды извлекаются из SGLang, широко используемого фреймворка для серверного применения ЛЛМ. Агенты используют LLM для проведения экспериментов, профилирования, генерации новых вариантов кода и выбора оптимальных решений. Метод заключается в итеративном улучшении производительности ядер с помощью агентов, которые совместно решают задачи кодирования и профилирования. ## Результаты На кубах SGLang Astra достигает среднего ускорения 1.32x при использовании стилистического модели OpenAI o4-mini. Детальная случайная стадия показывает, что LLM-система может автономно применять циклические преобразования, оптимизировать доступ к памяти, использовать CUDA-инструменты и применять быстрые математические операции. Эти меры приводят к значительным улучшениям производительности. На основе экспериментов было показано, что Astra может значительно повысить производительность GPU-ядер без ручного вмешательства, что демонстрирует потенциал многоагентных LLM-систем в области оптимизации GPU-кода. ## Значимость Astra может применяться в сферах машинного обучения, высокопроизводительных вычислений и оптимизации GPU. Она предоставляет преимущества в скорости и эффективности в кодировании ядер GPU без ручного вмешательства. Это может привести к значительному сокращению времени и ресурсов

Annotation:

GPU kernel optimization has long been a central challenge at the intersection of high-performance computing and machine learning. Efficient kernels are crucial for accelerating large language model (LLM) training and serving, yet attaining high performance typically requires extensive manual tuning. Compiler-based systems reduce some of this burden, but still demand substantial manual design and engineering effort. Recently, researchers have explored using LLMs for GPU kernel generation, though ...

ID: 2509.07506v1 cs.DC, cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF