SwizzlePerf: Hardware-Aware LLMs for GPU Kernel Performance Optimization
2508.20258v1
cs.DC, cs.AI
2025-08-30
Авторы:
Arya Tschand, Muhammad Awad, Ryan Swann, Kesavan Ramakrishnan, Jeffrey Ma, Keith Lowery, Ganesh Dasika, Vijay Janapa Reddi
Резюме на русском
```## Контекст
Повышение производительности GPU-ядер является ключевым фактором для улучшения общей эффективности вычислений в системах с высокой параллельностью. Однако развитие эффективных методов оптимизации GPU-ядер чрезвычайно сложно и требует значительных усилий от профессионалов. Существующие подходы часто основываются на поиске интуитивных решений, которые требуют проведения многократных экспериментов. Эта проблема усиливается при работе с современными большими языковыми моделями (LLMs), которые не включают в себя информацию об особенностях железа, тем самым снижая эффективность. SwizzlePerf предлагает решение этой проблемы, предлагая стратегию, которая использует специфику железа для повышения производительности GPU-ядер.
```
```## Метод
SwizzlePerf включает в себя множество технических решений, используя богатый набор данных, таких как профилирование, спецификации железа и исторические данные о производительности. За основу метода лежит использование LLMs для автоматического генерирования оптимальных свиззлинг-паттернов GPU-ядер. Эти паттерны определяются с учетом специфических паттернов доступа к памяти и архитектурных особенностей графических процессоров. Архитектура SwizzlePerf представляет собой комбинацию интеллектуальных агентов, которые анализируют профиль производительности и используют информацию о железе, чтобы генерировать оптимизированные решения в реальном времени. Этот подход позволяет уменьшить время разработки оптимизаций, существенно увеличивая эффективность.
```
```## Результаты
Проведенные эксперименты показали высокую эффективность SwizzlePerf. На специально скомпилированных тестах, включающих 10 различных моделей машинного обучения и научных вычислений, он смог генерировать оптимальные свиззлинг-паттерны для 9 моделей. Это привело к увеличению производительности до 2,06x и улучшению L2 hit rate до 70%. В сравнении с существующими методами, SwizzlePerf позволил экономить много времени (решение, которое заняло у экспертов 2 недели, было сгенерировано за менее 5 минут). Этот подход работает на разных архитектурах GPU и демонстрирует сосредоточенность на оптимизации специфичности железа.
```
```## Значимость
SwizzlePerf имеет широкое применение в области производительности вычислений, особенно в сфере глубокого обучения и научных вычислений. Его преимущества заключаются в том, что он позволяет автоматически создавать оптимизированные свиззлинг-паттерны, которые традиционно требовали многократных экспериментов и ручного анализа. Это может существенно сократить вре
Abstract
Large language models (LLMs) have shown progress in GPU kernel performance
engineering using inefficient search-based methods that optimize around
runtime. Any existing approach lacks a key characteristic that human
performance engineers rely on for near-optimal utilization --
hardware-awareness. By leveraging the workload's specific memory access
patterns, architecture specifications, filtered profiling logs, and reflections
on historical performance, we can make software-level optimizations that are
tailored to the underlying hardware. SwizzlePerf automatically generates
spatial optimizations for GPU kernels on disaggregated architectures by giving
LLMs explicit hardware-awareness.
For a GEMM kernel, SwizzlePerf takes less than 5 minutes to generate the same
hardware-specific optimal swizzling pattern that took expert performance
engineers 2 weeks to find. On a suite of 10 diverse ML and Science kernels,
SwizzlePerf can generate swizzling patterns for 9 of the kernels that achieve
up to a 2.06x speedup and 70% improvement in L2 hit rate. This work is the
first of many steps toward systematically creating hardware-aware LLM
performance engineering agents.
Ссылки и действия
Дополнительные ресурсы: