LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving
2509.01229v1
cs.DC, cs.AI, cs.LG
2025-09-05
Авторы:
Huanqi Hu, Bowen Xiao, Shixuan Sun, Jianian Yin, Zhexi Zhang, Xiang Luo, Chengquan Jiang, Weiqi Xu, Xiaoying Jia, Xin Liu, Minyi Guo
Резюме на русском
#### Контекст
В последние годы глубокое обучение (LLM) набирает все большую популярность, особенно в сферах, требующих высокой производительности и эффективности. Одной из ключевых задач в этой области является оптимизация моделей для работы на ограниченных ресурсах. Одним из эффективных способов достижения этой цели является использование схем квантования, которые уменьшают объем памяти и увеличивают скорость вычислений. Одним из популярных вариантов является квантование с 4-битным весом и 8-битными активациями (W4A8). Тем не менее, существующие реализации W4A8 GEMM (General Matrix Multiply) оказываются недостаточно эффективными в плане вычислительной скорости, в частности из-за проблем с деквантизацией на CUDA Cores. Это влечет за собой неэффективность при использовании высокопроизводительных Tensor Cores. В данной работе мы предлагаем LiquidGEMM — новое решение, созданное с целью устранения этих проблем и увеличения производительности LLM-сервиса.
#### Метод
LiquidGEMM основывается на двух основных технических приемах. Первым — LiquidQuant, новая техника квантования, которая позволяет производить деквантизацию с использованием только двух арифметических операций на 4 элемента. Это позволяет избежать проблем с переполнением и улучшить эффективность вычислений. Вторым — implicit fine-grained pipeline, которая допускает полное параллельное выполнение задач по загрузке весов, деквантизации и выполнения матричных многошаговых арифметических операций (MMA) без необходимости синхронизации в программном уровне или повторных чтений памяти. Эта архитектура дозволяет использовать весь потенциал Tensor Cores, обеспечивая существенные выигрыши в скорости выполнения.
#### Результаты
В ходе экспериментов LiquidGEMM демонстрирует существенные выигрыши по производительности. По сравнению с состоянием техники, достигнутые скорости выполнения выше на 2,9 раза. Этот результат достигается благодаря эффективной реализации деквантизации и полному параллелизму внутри кадров. Более того, LiquidGEMM показывает системно-уровневые выигрыши до 4,94 раз, что свидетельствует о значительном улучшении общей эффективности системы. Сравнение с ранее используемыми W4A8-реализациями в NVIDIA TensorRT-LLM показало, что LiquidGEMM дает прирост скорости в диапазоне от 1,12 до 1,63 раз, а также достигает до 1,63 раз системных выигрышей.
#### Значимость
Предложенное решение имеет широкие применения в области обработки естественного языка, в том числе при работе с моделями типа LLM. Оно обеспечивает значительное увеличение производительности в сравнении с текущими стандартами. Благодаря использованию LiquidQuant и пара
Abstract
Quantization is a critical technique for accelerating LLM inference by
reducing memory footprint and improving computational efficiency. Among various
schemes, 4-bit weight and 8-bit activation quantization (W4A8) offers a strong
balance between accuracy and performance. However, existing W4A8 GEMM kernels
fall short in practice due to inefficient dequantization on CUDA Cores, which
cannot keep pace with the high throughput of Tensor Cores. In this paper, we
present LiquidGEMM, a hardware-efficient W4A8 GEMM kernel for efficient LLM
serving. LiquidGEMM designs two key techniques: LiquidQuant, a
hardware-efficient quantization method that enables fast, overflow-safe
dequantization using just two arithmetic instructions per four elements; and an
implicit fine-grained pipeline that fully overlaps weight loading,
dequantization, and MMA across warp groups without software synchronization or
redundant memory traffic. Experimental results show that LiquidGEMM achieves up
to 2.90x speedup over state-of-the-art W4A8 kernels and up to 4.94x end-to-end
system-level speedup. Compared to various quantized GEMM kernels in NVIDIA
TensorRT-LLM, LiquidGEMM delivers 1.12-1.63x performance gains, and achieves up
to 1.63x system-level speedup.
Ссылки и действия
Дополнительные ресурсы: