LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

2509.01229v1 cs.DC, cs.AI, cs.LG 2025-09-05

Авторы:

Huanqi Hu, Bowen Xiao, Shixuan Sun, Jianian Yin, Zhexi Zhang, Xiang Luo, Chengquan Jiang, Weiqi Xu, Xiaoying Jia, Xin Liu, Minyi Guo

Резюме на русском

#### Контекст В последние годы глубокое обучение (LLM) набирает все большую популярность, особенно в сферах, требующих высокой производительности и эффективности. Одной из ключевых задач в этой области является оптимизация моделей для работы на ограниченных ресурсах. Одним из эффективных способов достижения этой цели является использование схем квантования, которые уменьшают объем памяти и увеличивают скорость вычислений. Одним из популярных вариантов является квантование с 4-битным весом и 8-битными активациями (W4A8). Тем не менее, существующие реализации W4A8 GEMM (General Matrix Multiply) оказываются недостаточно эффективными в плане вычислительной скорости, в частности из-за проблем с деквантизацией на CUDA Cores. Это влечет за собой неэффективность при использовании высокопроизводительных Tensor Cores. В данной работе мы предлагаем LiquidGEMM — новое решение, созданное с целью устранения этих проблем и увеличения производительности LLM-сервиса. #### Метод LiquidGEMM основывается на двух основных технических приемах. Первым — LiquidQuant, новая техника квантования, которая позволяет производить деквантизацию с использованием только двух арифметических операций на 4 элемента. Это позволяет избежать проблем с переполнением и улучшить эффективность вычислений. Вторым — implicit fine-grained pipeline, которая допускает полное параллельное выполнение задач по загрузке весов, деквантизации и выполнения матричных многошаговых арифметических операций (MMA) без необходимости синхронизации в программном уровне или повторных чтений памяти. Эта архитектура дозволяет использовать весь потенциал Tensor Cores, обеспечивая существенные выигрыши в скорости выполнения. #### Результаты В ходе экспериментов LiquidGEMM демонстрирует существенные выигрыши по производительности. По сравнению с состоянием техники, достигнутые скорости выполнения выше на 2,9 раза. Этот результат достигается благодаря эффективной реализации деквантизации и полному параллелизму внутри кадров. Более того, LiquidGEMM показывает системно-уровневые выигрыши до 4,94 раз, что свидетельствует о значительном улучшении общей эффективности системы. Сравнение с ранее используемыми W4A8-реализациями в NVIDIA TensorRT-LLM показало, что LiquidGEMM дает прирост скорости в диапазоне от 1,12 до 1,63 раз, а также достигает до 1,63 раз системных выигрышей. #### Значимость Предложенное решение имеет широкие применения в области обработки естественного языка, в том числе при работе с моделями типа LLM. Оно обеспечивает значительное увеличение производительности в сравнении с текущими стандартами. Благодаря использованию LiquidQuant и пара

Abstract

Quantization is a critical technique for accelerating LLM inference by reducing memory footprint and improving computational efficiency. Among various schemes, 4-bit weight and 8-bit activation quantization (W4A8) offers a strong balance between accuracy and performance. However, existing W4A8 GEMM kernels fall short in practice due to inefficient dequantization on CUDA Cores, which cannot keep pace with the high throughput of Tensor Cores. In this paper, we present LiquidGEMM, a hardware-efficient W4A8 GEMM kernel for efficient LLM serving. LiquidGEMM designs two key techniques: LiquidQuant, a hardware-efficient quantization method that enables fast, overflow-safe dequantization using just two arithmetic instructions per four elements; and an implicit fine-grained pipeline that fully overlaps weight loading, dequantization, and MMA across warp groups without software synchronization or redundant memory traffic. Experimental results show that LiquidGEMM achieves up to 2.90x speedup over state-of-the-art W4A8 kernels and up to 4.94x end-to-end system-level speedup. Compared to various quantized GEMM kernels in NVIDIA TensorRT-LLM, LiquidGEMM delivers 1.12-1.63x performance gains, and achieves up to 1.63x system-level speedup.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems

Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over...

Towards Straggler-Resilient Split Federated Learning: An Unbalanced Update Appro...

HybridEP: Scaling Expert Parallelism to Cross-Datacenter Scenario via Hybrid Exp...

Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of...

Навигация