FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication
2508.03760v1
cs.DC, cs.AI
2025-08-09
Авторы:
Qingyuan Li, Bo Zhang, Hui Kang, Tianhao Xu, Yulei Qian, Yuchen Xie, Lin Ma
Резюме на русском
#### Аннотация
В последнее время появилась критическая проблема в распределенной обучении и развертывании больших языковых моделей (LLM): блокировки в обмене данными. FlashCommunication V2 предлагает новую парадигму для эффективного передачи данных между GPU-устройствами при любых битовых разрядах. Решение основывается на двух новых подходах: бит-разделении и зарезервировании изменчивых значений (spike reserving). Бит-разделение декомпозирует нестандартные разряды в базовые единицы, что обеспечивает совместимость с хардваром и позволяет передавать данные в любых битовых разрядах. Зарезервирование изменчивых значений сохраняет крайние значения (минимумы и максимумы) в виде чисел с плавающей точкой, уменьшая динамический диапазон чисел и позволяя достичь работы с 2-битным сжатием при приемлемых потерях. Эта модель значительно повышает гибкость и эффективность использования ресурсов в системах коммуникации. Тщательное сочетание программного и аппаратного конструирования позволило достичь высокой производительности и снижения накладных расходов на NVLink- и PCIe-архитектурах, получив до 3.2$\times$ ускорения в AllReduce и 2$\times$ в All2All-передачах.
Abstract
Nowadays, communication bottlenecks have emerged as a critical challenge in
the distributed training and deployment of large language models (LLMs). This
paper introduces FlashCommunication V2, a novel communication paradigm enabling
efficient cross-GPU transmission at arbitrary bit widths. Its core innovations
lie in the proposed bit splitting and spike reserving techniques, which address
the challenges of low-bit quantization. Bit splitting decomposes irregular bit
widths into basic units, ensuring compatibility with hardware capabilities and
thus enabling transmission at any bit width. Spike reserving, on the other
hand, retains numerical outliers (i.e., minima and maxima) as floating-point
numbers, which shrinks the dynamic numerical range and pushes the quantization
limits to 2-bit with acceptable losses. FlashCommunication V2 significantly
enhances the flexibility and resource utilization of communication systems.
Through meticulous software-hardware co-design, it delivers robust performance
and reduced overhead across both NVLink-based and PCIe-based architectures,
achieving a maximum 3.2$\times$ speedup in AllReduce and 2$\times$ in All2All
communication.
Ссылки и действия
Дополнительные ресурсы: