APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration
2508.19087v1
cs.LG, cs.AI, cs.AR
2025-08-28
Авторы:
Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang
Резюме на русском
## Контекст
Large language models (LLMs) являются ключевыми инструментами в развитии искусственного интеллекта, но их высокие вычислительные затраты ограничивают их развертывание и реального времени взаимодействие. Одним из потенциальных способов улучшения эффективности является использование методов квантования, но достижение высокой эффективности при использовании ultra-low-bit quantized LLMs по-прежнему остается сложной задачей. Особенно это касается GPU Tensor Cores, которые предлагают ограниченную поддержку, неэффективное управление памятью и жесткие оптимизации. Чтобы справиться с этими проблемами, мы предлагаем APT-LLM — систему ускорения, поддерживающую работу со случайной точностью.
## Метод
APT-LLM включает несколько ключевых технических решений. Мы представляем новую данной формат, "bipolar-INT", который позволяет трансформировать данные с потерь между INT и бинарным форматом, обеспечивая эффективность расчетов и совместимость с GPU Tensor Cores. Мы также разработали метод матричного перемножения (MatMul), позволяющий работать с данными в произвольной точности, разбивая и соединяя матрицы на битовых уровнях. Это позволяет гибко менять точность и оптимизировать использование GPU Tensor Cores. Для улучшения управления памятью мы предлагаем систему управления данными, включающую в себя восстановление данных на гибком общем ядре, что позволяет ускорить выполнение и снизить задержки. Наконец, мы реализовали динамическую систему оптимизации, которая выбирает оптимальные настройки для каждого размера матрицы, обеспечивая максимальную производительность для различных архитектур LLMs.
## Результаты
Мы провели эксперименты на основе нескольких моделей LLMs, в том числе на PyTorch, TensorRT и NVIDIA CUTLASS. Наша система достигла до 3.99$\times$ ускорения по сравнению с базовыми моделями FP16 на RTX 3090. Также, мы обнаружили, что на RTX 4090 и H800 производительность APT-LLM выше на 2.44$\times$ по сравнению с FP16 и на 1.65$\times$ по сравнению с CUTLASS INT4. Эти результаты демонстрируют, что APT-LLM дает существенное улучшение производительности при работе с ultra-low-bit LLMs в различных условиях.
## Значимость
APT-LLM может применяться в различных областях, в том числе при развертывании LLMs в реальном времени, в области NLP, в облачных сервисах, а также в интеллектуальных системах, требующих высокой производительности. Это улучшение производительности и эффективности не только повышает скорость вычислений, но и снижает энергозатраты, что имеет важное значение в масштабном развертывании AI-систем.
## Выводы
Мы добились выдающихся результатов в ускорении LLMs, используя уника
Abstract
Large language models (LLMs) have revolutionized AI applications, yet their
enormous computational demands severely limit deployment and real-time
performance. Quantization methods can help reduce computational costs, however,
attaining the extreme efficiency associated with ultra-low-bit quantized LLMs
at arbitrary precision presents challenges on GPUs. This is primarily due to
the limited support for GPU Tensor Cores, inefficient memory management, and
inflexible kernel optimizations. To tackle these challenges, we propose a
comprehensive acceleration scheme for arbitrary precision LLMs, namely APT-LLM.
Firstly, we introduce a novel data format, bipolar-INT, which allows for
efficient and lossless conversion with signed INT, while also being more
conducive to parallel computation. We also develop a matrix multiplication
(MatMul) method allowing for arbitrary precision by dismantling and
reassembling matrices at the bit level. This method provides flexible precision
and optimizes the utilization of GPU Tensor Cores. In addition, we propose a
memory management system focused on data recovery, which strategically employs
fast shared memory to substantially increase kernel execution speed and reduce
memory access latency. Finally, we develop a kernel mapping method that
dynamically selects the optimal configurable hyperparameters of kernels for
varying matrix sizes, enabling optimal performance across different LLM
architectures and precision settings. In LLM inference, APT-LLM achieves up to
a 3.99$\times$ speedup compared to FP16 baselines and a 2.16$\times$ speedup
over NVIDIA CUTLASS INT4 acceleration on RTX 3090. On RTX 4090 and H800,
APT-LLM achieves up to 2.44$\times$ speedup over FP16 and 1.65$\times$ speedup
over CUTLASS integer baselines.
Ссылки и действия
Дополнительные ресурсы: