Efficient Edge LLMs Deployment via HessianAware Quantization and CPU GPU Collaborative

2508.07329v1 cs.LG, cs.AI 2025-08-13

Авторы:

Tuo Zhang, Ning Li, Xin Yuan, Wenchao Xu, Quan Chen, Song Guo, Haijun Zhang

Резюме на русском

## Контекст Большие языковые модели (LLMs) достигли существенных успехов в области естественного языкового обработки и мультимодальных задач. Однако их эффективное развертывание на ресурс-ограниченных устройствах, таких как смартфоны или накопители, представляет собой значительную сложность. Это вызвано тем, что модели становятся все более объемными, что приводит к высоким затратам на память и вычислительные ресурсы. Например, Микситура 8*7B требует до 40 ГБ памяти для работы, что превышает ресурсы большинства ресурс-ограниченных устройств. Для компенсации этих трудностей, широко используется архитектура Mixture of Experts (MoE), которая позволяет увеличить модельную мощность с помощью весовой спарсивания. Однако, это подход имеет несколько проблем: (1) Использование многобитного представления активаций и весов приводит к высоким затратам на память и неэффективности; (2) Отклонения в распределениях активаций приводят к потерям точности при интерпретации модели. Наша мотивация заключается в разработке эффективного метода развертывания MoE на ресурс-ограниченных устройствах, который решает эти проблемы. ## Метод Мы предлагаем метод, основанный на гессиан-сознательной квантообработке (Hessian-Aware Quantization, HAQ) и коллаборативном выполнении на CPU и GPU. Основные элементы этого метода: (1) **Гессиан-сознательная квантообработка**: Мы используем гессиан-сознательную квантообработку для объединенного 8-битного представления активаций и весов. Это позволяет уменьшить потерю точности, вызванную отклонениями в распределениях, и обеспечивает эффективный инструмент для работы на массовых устройствах. (2) **Коллаборативная оффлоадинг и инференс**: Мы разработали механизм специальной оффлоадинга и инференса моделей MoE на CPU и GPU. Этот механизм использует статистику потока активаций для оптимального распределения ресурсов между CPU и GPU, чтобы снизить задержки и использование памяти. ## Результаты Мы проверили наш метод на основных моделях, таких как OPT и Mixtral 8*7B. Эксперименты проводились на датасетах Wikitext2 и C4. Наши результаты показывают, что: (1) Модель с 8-битным представлением показывает почти такую же точность, как полноточная модель; (2) Использование памяти GPU уменьшилось примерно на 60%; (3) Задержка инференса была значительно сокращена. Эти результаты подтверждают эффективность нашего метода в реализации эффективного развертывания MoE на ресурс-ограниченных устройствах. ## Значимость Наш метод имеет значительные применения в следующих областях: (1) **Мобильные устройства**: Эф

Abstract

With the breakthrough progress of large language models (LLMs) in natural language processing and multimodal tasks, efficiently deploying them on resource-constrained edge devices has become a critical challenge. The Mixture of Experts (MoE) architecture enhances model capacity through sparse activation, but faces two major difficulties in practical deployment: (1) The presence of numerous outliers in activation distributions leads to severe degradation in quantization accuracy for both activations and weights, significantly impairing inference performance; (2) Under limited memory, efficient offloading and collaborative inference of expert modules struggle to balance latency and throughput. To address these issues, this paper proposes an efficient MoE edge deployment scheme based on Hessian-Aware Quantization (HAQ) and CPU-GPU collaborative inference. First, by introducing smoothed Hessian matrix quantization, we achieve joint 8-bit quantization of activations and weights, which significantly alleviates the accuracy loss caused by outliers while ensuring efficient implementation on mainstream hardware. Second, we design an expert-level collaborative offloading and inference mechanism, which, combined with expert activation path statistics, enables efficient deployment and scheduling of expert modules between CPU and GPU, greatly reducing memory footprint and inference latency. Extensive experiments validate the effectiveness of our method on mainstream large models such as the OPT series and Mixtral 8*7B: on datasets like Wikitext2 and C4, the inference accuracy of the low-bit quantized model approaches that of the full-precision model, while GPU memory usage is reduced by about 60%, and inference latency is significantly improved.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Efficient Edge LLMs Deployment via HessianAware Quantization and CPU GPU Collaborative

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация