Pushing the Envelope of LLM Inference on AI-PC
2508.06753v1
cs.AI, cs.LG, cs.PF
2025-08-13
Авторы:
Evangelos Georganas, Dhiraj Kalamkar, Alexander Heinecke
Резюме на русском
## Контекст
Сложность и высокая стоимость работы с традиционными трансформационными моделями языков (LLM) ограничивают их приложения в ресурс-критических средах, таких как edge devices и AI PCs. Однако недавние достижения в области quantization (сжатия моделей), позволяющие создавать ultra-low-bit LLM с точностью и end-task performance, приближающейся к full-precision моделям, открывают новые пути к интересующим средам. Тем не менее, текущие state-of-the-art (SOTA) inference runtimes для таких моделей недостаточно эффективны, что ограничивает потенциал таких разработок в средах с ограниченными ресурсами. В настоящей работе рассматривается стремление к оптимизации этих технологий, чтобы раскрыть их потенциал в реальной среде.
## Метод
Мы реализуем 1- и 2-bit microkernels, оптимизированные для современных CPU, чтобы добиться максимальной вычислительной эффективности. Эти микроядра интегрируются в SOTA LLM inference framework PyTorch-TPP. Используя модели с 2-битным сжатием, мы сравниваем их производительность с 16-битными и SOTA runtime bitnet.cpp. Этот подход позволяет экспериментировать с различными CPU-платформами и обеспечивает полное оценивание интересующих нас результатов.
## Результаты
Наши 1- и 2-bit microkernels показали значительные выигрыши в производительности по сравнению с 16-битными моделями и SOTA runtime bitnet.cpp. Мы достигли скорости выполнения (speedup) до 7x в сравнении с 16-битными моделями и до 2.2x по сравнению с bitnet.cpp. Эти результаты достигаются благодаря оптимизированному процессу quantization и микроядерной оптимизации, которые особенно эффективны на ресурс-критичных системах.
## Значимость
Наш подход открывает новые возможности для эффективного использования ultra-low-bit LLM на edge devices и AI PCs. Значительное увеличение скорости и энергоэффективности делает такие модели более доступными для реализации в реальных средах. Это может привести к новым приложениям в области языковых моделей, таких как встраиваемые системы, видеонаблюдение и другие AI-enabled системы.
## Выводы
Мы показали, что с помощью оптимизированного microkernel design и SOTA framework PyTorch-TPP можно достичь высокой производительности для ultra-low-bit LLM на AI PCs и edge devices. Это работа открывает новые пути для будущих исследований в области эффективного LLM inference в ресурс-критичных средах.
Abstract
The advent of ultra-low-bit LLM models (1/1.58/2-bit), which match the
perplexity and end-task performance of their full-precision counterparts using
the same model size, is ushering in a new era of LLM inference for
resource-constrained environments such as edge devices and AI PCs. While these
quantization advances promise models that are more cost-effective in terms of
latency, memory, throughput, and energy consumption, the computational
efficiency of state-of-the-art (SOTA) inference runtimes (e.g., bitnet.cpp)
used to deploy them remains underexplored. In this work, we take a bottom-up
approach: we first design and implement 1-bit and 2-bit microkernels optimized
for modern CPUs, achieving peak computational efficiency across a variety of
CPU platforms. We integrate these microkernels into a state-of-the-art LLM
inference framework, namely PyTorch-TPP, and present end-to-end inference
results with 2-bit models that outperform the current SOTA runtime bitnet.cpp
by up to 2.2x, and deliver up to 7x speedup compared to the 16-bit model
inference. Our optimized runtime advances the state of LLM inference on AI PCs
and edge devices, paving the way for efficient deployment of ultra-low-bit LLM
models.
Ссылки и действия
Дополнительные ресурсы: