APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration

2508.19087v1 cs.LG, cs.AI, cs.AR 2025-08-28
Авторы:

Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang

Резюме на русском

## Контекст Large language models (LLMs) являются ключевыми инструментами в развитии искусственного интеллекта, но их высокие вычислительные затраты ограничивают их развертывание и реального времени взаимодействие. Одним из потенциальных способов улучшения эффективности является использование методов квантования, но достижение высокой эффективности при использовании ultra-low-bit quantized LLMs по-прежнему остается сложной задачей. Особенно это касается GPU Tensor Cores, которые предлагают ограниченную поддержку, неэффективное управление памятью и жесткие оптимизации. Чтобы справиться с этими проблемами, мы предлагаем APT-LLM — систему ускорения, поддерживающую работу со случайной точностью. ## Метод APT-LLM включает несколько ключевых технических решений. Мы представляем новую данной формат, "bipolar-INT", который позволяет трансформировать данные с потерь между INT и бинарным форматом, обеспечивая эффективность расчетов и совместимость с GPU Tensor Cores. Мы также разработали метод матричного перемножения (MatMul), позволяющий работать с данными в произвольной точности, разбивая и соединяя матрицы на битовых уровнях. Это позволяет гибко менять точность и оптимизировать использование GPU Tensor Cores. Для улучшения управления памятью мы предлагаем систему управления данными, включающую в себя восстановление данных на гибком общем ядре, что позволяет ускорить выполнение и снизить задержки. Наконец, мы реализовали динамическую систему оптимизации, которая выбирает оптимальные настройки для каждого размера матрицы, обеспечивая максимальную производительность для различных архитектур LLMs. ## Результаты Мы провели эксперименты на основе нескольких моделей LLMs, в том числе на PyTorch, TensorRT и NVIDIA CUTLASS. Наша система достигла до 3.99$\times$ ускорения по сравнению с базовыми моделями FP16 на RTX 3090. Также, мы обнаружили, что на RTX 4090 и H800 производительность APT-LLM выше на 2.44$\times$ по сравнению с FP16 и на 1.65$\times$ по сравнению с CUTLASS INT4. Эти результаты демонстрируют, что APT-LLM дает существенное улучшение производительности при работе с ultra-low-bit LLMs в различных условиях. ## Значимость APT-LLM может применяться в различных областях, в том числе при развертывании LLMs в реальном времени, в области NLP, в облачных сервисах, а также в интеллектуальных системах, требующих высокой производительности. Это улучшение производительности и эффективности не только повышает скорость вычислений, но и снижает энергозатраты, что имеет важное значение в масштабном развертывании AI-систем. ## Выводы Мы добились выдающихся результатов в ускорении LLMs, используя уника

Abstract

Large language models (LLMs) have revolutionized AI applications, yet their enormous computational demands severely limit deployment and real-time performance. Quantization methods can help reduce computational costs, however, attaining the extreme efficiency associated with ultra-low-bit quantized LLMs at arbitrary precision presents challenges on GPUs. This is primarily due to the limited support for GPU Tensor Cores, inefficient memory management, and inflexible kernel optimizations. To tackle these challenges, we propose a comprehensive acceleration scheme for arbitrary precision LLMs, namely APT-LLM. Firstly, we introduce a novel data format, bipolar-INT, which allows for efficient and lossless conversion with signed INT, while also being more conducive to parallel computation. We also develop a matrix multiplication (MatMul) method allowing for arbitrary precision by dismantling and reassembling matrices at the bit level. This method provides flexible precision and optimizes the utilization of GPU Tensor Cores. In addition, we propose a memory management system focused on data recovery, which strategically employs fast shared memory to substantially increase kernel execution speed and reduce memory access latency. Finally, we develop a kernel mapping method that dynamically selects the optimal configurable hyperparameters of kernels for varying matrix sizes, enabling optimal performance across different LLM architectures and precision settings. In LLM inference, APT-LLM achieves up to a 3.99$\times$ speedup compared to FP16 baselines and a 2.16$\times$ speedup over NVIDIA CUTLASS INT4 acceleration on RTX 3090. On RTX 4090 and H800, APT-LLM achieves up to 2.44$\times$ speedup over FP16 and 1.65$\times$ speedup over CUTLASS integer baselines.

Ссылки и действия

Связанные статьи

Neural Network Acceleration on MPSoC board: Integrating SLAC's SNL, Rogue Softwa...

## Контекст С Free Electron Laser (FEL) LCLS-II будет генерировать лучи X-ray с частотой до 1 MHz, при этом детекторы б...

2025-09-02

Quantized Neural Networks for Microcontrollers: A Comprehensive Review of Method...

## Контекст Современные приложения на основе глубоких нейронных сетей (DNNs) требуют высокой мощности вычислений и боль...

2025-08-23

Extending Straight-Through Estimation for Robust Neural Networks on Analog CIM H...

## Контекст Аналоговые Compute-In-Memory (CIM) архитектуры предлагают значительные энергоэффективностные выигрыши для не...

2025-08-19