ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive

2508.18850v1 cs.DC, cs.AI 2025-08-28
Авторы:

Xinhao Luo, Zihan Liu, Yangjie Zhou, Shihan Fang, Ziyu Huang, Yu Feng, Chen Zhang, Shixuan Sun, Zhenzhe Zheng, Jingwen Leng, Minyi Guo

Резюме на русском

## Контекст Large language model (LLM) decoding представляет собой вычислительно тяжелую задачу, которая часто сталкивается с проблемами высокой задержки и ограниченной эффективностью. Основная причина этого является разрозненной интерпретацией операторов, обусловленной их различными характеристиками, и значительной зависимостью от внешней памяти для обмена и суммирования данных. Эта ситуация ставит перед разработчиками трудности в масштабировании и оптимизации вычислений. Добавляется к этому значительный объем трафика памяти и целей для запуска ядер, что делает систему менее эффективной. Однако современные архитектуры, такие как NVIDIA Hopper, предоставляют распределенный общий доступ к памяти и низкозадерживающие интерконнекты между кластерами. Тем не менее, они предоставляют только низкоуровневые команды для перемещения данных, не имея структурированных абстракций для коллективных операций в пределах кластера. Из-за этого отсутствия, потенциал кластера остается недостижимым. Мы предлагаем ClusterFusion, чтобы решить эти проблемы. ## Метод ClusterFusion предлагает два ключевых кластер-уровневых абстракций: ClusterReduce и ClusterGather. Эти примитивы абстрагируют типичные шаблоны коммуникации и обеспечивают эффективную передачу и суммирование данных в пределах кластера. Они позволяют выполнить на чипе все необходимое для вычислений, не подразумевая обращение к внешней памяти. Эти примитивы интегрируются в ClusterFusion, архитектуру, которая управляет расписанием работы во время выполнения. Она стремится расширить объем возможного совмещения операторов, объединяя такие этапы, как проекция QKV, атанк, и выходные проекции, в один fussed kernel. Эта модель позволяет уменьшать задержки и увеличивать эффективность, позволяя операциям быть более структурированными и быстрыми. ## Результаты Мы проверили ClusterFusion на H100 GPU и сравнили его с современными фреймворками для вывода LLM. Эксперименты показали, что ClusterFusion уменьшает задержку в среднем на 1.61x, оптимизируя работу над различными моделями и конфигурациями. Эти результаты достигаются благодаря улучшенной структуре и эффективной интеграции коммуникации и вычислений. Наши результаты подтверждают, что ClusterFusion значительно улучшает производительность в различных условиях. ## Значимость ClusterFusion может применяться в различных областях, где требуется высокая эффективность вывода LLM, таких как разработка новых технологий для глубокого обучения, реализация моделей для трансляции и синтеза речи, а также применение в системах рекомендаций и синтетического текста. Это решение отличается своей высокой масштабируемостью, меньшим требо

Abstract

Large language model (LLM) decoding suffers from high latency due to fragmented execution across operators and heavy reliance on off-chip memory for data exchange and reduction. This execution model limits opportunities for fusion and incurs significant memory traffic and kernel launch overhead. While modern architectures such as NVIDIA Hopper provide distributed shared memory and low-latency intra-cluster interconnects, they expose only low-level data movement instructions, lacking structured abstractions for collective on-chip communication. To bridge this software-hardware gap, we introduce two cluster-level communication primitives, ClusterReduce and ClusterGather, which abstract common communication patterns and enable structured, high-speed data exchange and reduction between thread blocks within a cluster, allowing intermediate results to be on-chip without involving off-chip memory. Building on these abstractions, we design ClusterFusion, an execution framework that schedules communication and computation jointly to expand operator fusion scope by composing decoding stages such as QKV Projection, Attention, and Output Projection into a single fused kernels. Evaluations on H100 GPUs show that ClusterFusion outperforms state-of-the-art inference frameworks by 1.61x on average in end-to-end latency across different models and configurations. The source code is available at https://github.com/xinhao-luo/ClusterFusion.

Ссылки и действия