Pushing the Envelope of LLM Inference on AI-PC

2508.06753v1 cs.AI, cs.LG, cs.PF 2025-08-13
Авторы:

Evangelos Georganas, Dhiraj Kalamkar, Alexander Heinecke

Резюме на русском

## Контекст Сложность и высокая стоимость работы с традиционными трансформационными моделями языков (LLM) ограничивают их приложения в ресурс-критических средах, таких как edge devices и AI PCs. Однако недавние достижения в области quantization (сжатия моделей), позволяющие создавать ultra-low-bit LLM с точностью и end-task performance, приближающейся к full-precision моделям, открывают новые пути к интересующим средам. Тем не менее, текущие state-of-the-art (SOTA) inference runtimes для таких моделей недостаточно эффективны, что ограничивает потенциал таких разработок в средах с ограниченными ресурсами. В настоящей работе рассматривается стремление к оптимизации этих технологий, чтобы раскрыть их потенциал в реальной среде. ## Метод Мы реализуем 1- и 2-bit microkernels, оптимизированные для современных CPU, чтобы добиться максимальной вычислительной эффективности. Эти микроядра интегрируются в SOTA LLM inference framework PyTorch-TPP. Используя модели с 2-битным сжатием, мы сравниваем их производительность с 16-битными и SOTA runtime bitnet.cpp. Этот подход позволяет экспериментировать с различными CPU-платформами и обеспечивает полное оценивание интересующих нас результатов. ## Результаты Наши 1- и 2-bit microkernels показали значительные выигрыши в производительности по сравнению с 16-битными моделями и SOTA runtime bitnet.cpp. Мы достигли скорости выполнения (speedup) до 7x в сравнении с 16-битными моделями и до 2.2x по сравнению с bitnet.cpp. Эти результаты достигаются благодаря оптимизированному процессу quantization и микроядерной оптимизации, которые особенно эффективны на ресурс-критичных системах. ## Значимость Наш подход открывает новые возможности для эффективного использования ultra-low-bit LLM на edge devices и AI PCs. Значительное увеличение скорости и энергоэффективности делает такие модели более доступными для реализации в реальных средах. Это может привести к новым приложениям в области языковых моделей, таких как встраиваемые системы, видеонаблюдение и другие AI-enabled системы. ## Выводы Мы показали, что с помощью оптимизированного microkernel design и SOTA framework PyTorch-TPP можно достичь высокой производительности для ultra-low-bit LLM на AI PCs и edge devices. Это работа открывает новые пути для будущих исследований в области эффективного LLM inference в ресурс-критичных средах.

Abstract

The advent of ultra-low-bit LLM models (1/1.58/2-bit), which match the perplexity and end-task performance of their full-precision counterparts using the same model size, is ushering in a new era of LLM inference for resource-constrained environments such as edge devices and AI PCs. While these quantization advances promise models that are more cost-effective in terms of latency, memory, throughput, and energy consumption, the computational efficiency of state-of-the-art (SOTA) inference runtimes (e.g., bitnet.cpp) used to deploy them remains underexplored. In this work, we take a bottom-up approach: we first design and implement 1-bit and 2-bit microkernels optimized for modern CPUs, achieving peak computational efficiency across a variety of CPU platforms. We integrate these microkernels into a state-of-the-art LLM inference framework, namely PyTorch-TPP, and present end-to-end inference results with 2-bit models that outperform the current SOTA runtime bitnet.cpp by up to 2.2x, and deliver up to 7x speedup compared to the 16-bit model inference. Our optimized runtime advances the state of LLM inference on AI PCs and edge devices, paving the way for efficient deployment of ultra-low-bit LLM models.

Ссылки и действия