ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive
2508.18850v1
cs.DC, cs.AI
2025-08-28
Авторы:
Xinhao Luo, Zihan Liu, Yangjie Zhou, Shihan Fang, Ziyu Huang, Yu Feng, Chen Zhang, Shixuan Sun, Zhenzhe Zheng, Jingwen Leng, Minyi Guo
Резюме на русском
## Контекст
Large language model (LLM) decoding представляет собой вычислительно тяжелую задачу, которая часто сталкивается с проблемами высокой задержки и ограниченной эффективностью. Основная причина этого является разрозненной интерпретацией операторов, обусловленной их различными характеристиками, и значительной зависимостью от внешней памяти для обмена и суммирования данных. Эта ситуация ставит перед разработчиками трудности в масштабировании и оптимизации вычислений. Добавляется к этому значительный объем трафика памяти и целей для запуска ядер, что делает систему менее эффективной. Однако современные архитектуры, такие как NVIDIA Hopper, предоставляют распределенный общий доступ к памяти и низкозадерживающие интерконнекты между кластерами. Тем не менее, они предоставляют только низкоуровневые команды для перемещения данных, не имея структурированных абстракций для коллективных операций в пределах кластера. Из-за этого отсутствия, потенциал кластера остается недостижимым. Мы предлагаем ClusterFusion, чтобы решить эти проблемы.
## Метод
ClusterFusion предлагает два ключевых кластер-уровневых абстракций: ClusterReduce и ClusterGather. Эти примитивы абстрагируют типичные шаблоны коммуникации и обеспечивают эффективную передачу и суммирование данных в пределах кластера. Они позволяют выполнить на чипе все необходимое для вычислений, не подразумевая обращение к внешней памяти. Эти примитивы интегрируются в ClusterFusion, архитектуру, которая управляет расписанием работы во время выполнения. Она стремится расширить объем возможного совмещения операторов, объединяя такие этапы, как проекция QKV, атанк, и выходные проекции, в один fussed kernel. Эта модель позволяет уменьшать задержки и увеличивать эффективность, позволяя операциям быть более структурированными и быстрыми.
## Результаты
Мы проверили ClusterFusion на H100 GPU и сравнили его с современными фреймворками для вывода LLM. Эксперименты показали, что ClusterFusion уменьшает задержку в среднем на 1.61x, оптимизируя работу над различными моделями и конфигурациями. Эти результаты достигаются благодаря улучшенной структуре и эффективной интеграции коммуникации и вычислений. Наши результаты подтверждают, что ClusterFusion значительно улучшает производительность в различных условиях.
## Значимость
ClusterFusion может применяться в различных областях, где требуется высокая эффективность вывода LLM, таких как разработка новых технологий для глубокого обучения, реализация моделей для трансляции и синтеза речи, а также применение в системах рекомендаций и синтетического текста. Это решение отличается своей высокой масштабируемостью, меньшим требо
Abstract
Large language model (LLM) decoding suffers from high latency due to
fragmented execution across operators and heavy reliance on off-chip memory for
data exchange and reduction. This execution model limits opportunities for
fusion and incurs significant memory traffic and kernel launch overhead. While
modern architectures such as NVIDIA Hopper provide distributed shared memory
and low-latency intra-cluster interconnects, they expose only low-level data
movement instructions, lacking structured abstractions for collective on-chip
communication. To bridge this software-hardware gap, we introduce two
cluster-level communication primitives, ClusterReduce and ClusterGather, which
abstract common communication patterns and enable structured, high-speed data
exchange and reduction between thread blocks within a cluster, allowing
intermediate results to be on-chip without involving off-chip memory. Building
on these abstractions, we design ClusterFusion, an execution framework that
schedules communication and computation jointly to expand operator fusion scope
by composing decoding stages such as QKV Projection, Attention, and Output
Projection into a single fused kernels. Evaluations on H100 GPUs show that
ClusterFusion outperforms state-of-the-art inference frameworks by 1.61x on
average in end-to-end latency across different models and configurations. The
source code is available at https://github.com/xinhao-luo/ClusterFusion.
Ссылки и действия
Дополнительные ресурсы: