SwizzlePerf: Hardware-Aware LLMs for GPU Kernel Performance Optimization

2508.20258v1 cs.DC, cs.AI 2025-08-30

Авторы:

Arya Tschand, Muhammad Awad, Ryan Swann, Kesavan Ramakrishnan, Jeffrey Ma, Keith Lowery, Ganesh Dasika, Vijay Janapa Reddi

Резюме на русском

```## Контекст Повышение производительности GPU-ядер является ключевым фактором для улучшения общей эффективности вычислений в системах с высокой параллельностью. Однако развитие эффективных методов оптимизации GPU-ядер чрезвычайно сложно и требует значительных усилий от профессионалов. Существующие подходы часто основываются на поиске интуитивных решений, которые требуют проведения многократных экспериментов. Эта проблема усиливается при работе с современными большими языковыми моделями (LLMs), которые не включают в себя информацию об особенностях железа, тем самым снижая эффективность. SwizzlePerf предлагает решение этой проблемы, предлагая стратегию, которая использует специфику железа для повышения производительности GPU-ядер. ``` ```## Метод SwizzlePerf включает в себя множество технических решений, используя богатый набор данных, таких как профилирование, спецификации железа и исторические данные о производительности. За основу метода лежит использование LLMs для автоматического генерирования оптимальных свиззлинг-паттернов GPU-ядер. Эти паттерны определяются с учетом специфических паттернов доступа к памяти и архитектурных особенностей графических процессоров. Архитектура SwizzlePerf представляет собой комбинацию интеллектуальных агентов, которые анализируют профиль производительности и используют информацию о железе, чтобы генерировать оптимизированные решения в реальном времени. Этот подход позволяет уменьшить время разработки оптимизаций, существенно увеличивая эффективность. ``` ```## Результаты Проведенные эксперименты показали высокую эффективность SwizzlePerf. На специально скомпилированных тестах, включающих 10 различных моделей машинного обучения и научных вычислений, он смог генерировать оптимальные свиззлинг-паттерны для 9 моделей. Это привело к увеличению производительности до 2,06x и улучшению L2 hit rate до 70%. В сравнении с существующими методами, SwizzlePerf позволил экономить много времени (решение, которое заняло у экспертов 2 недели, было сгенерировано за менее 5 минут). Этот подход работает на разных архитектурах GPU и демонстрирует сосредоточенность на оптимизации специфичности железа. ``` ```## Значимость SwizzlePerf имеет широкое применение в области производительности вычислений, особенно в сфере глубокого обучения и научных вычислений. Его преимущества заключаются в том, что он позволяет автоматически создавать оптимизированные свиззлинг-паттерны, которые традиционно требовали многократных экспериментов и ручного анализа. Это может существенно сократить вре

Abstract

Large language models (LLMs) have shown progress in GPU kernel performance engineering using inefficient search-based methods that optimize around runtime. Any existing approach lacks a key characteristic that human performance engineers rely on for near-optimal utilization -- hardware-awareness. By leveraging the workload's specific memory access patterns, architecture specifications, filtered profiling logs, and reflections on historical performance, we can make software-level optimizations that are tailored to the underlying hardware. SwizzlePerf automatically generates spatial optimizations for GPU kernels on disaggregated architectures by giving LLMs explicit hardware-awareness. For a GEMM kernel, SwizzlePerf takes less than 5 minutes to generate the same hardware-specific optimal swizzling pattern that took expert performance engineers 2 weeks to find. On a suite of 10 diverse ML and Science kernels, SwizzlePerf can generate swizzling patterns for 9 of the kernels that achieve up to a 2.06x speedup and 70% improvement in L2 hit rate. This work is the first of many steps toward systematically creating hardware-aware LLM performance engineering agents.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SwizzlePerf: Hardware-Aware LLMs for GPU Kernel Performance Optimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация