Amber Pruner: Leveraging N:M Activation Sparsity for Efficient Prefill in Large Language Models

2508.02128v1 cs.LG, cs.AI 2025-08-09
Авторы:

Tai An, Ruwu Cai, Yanzhe Zhang, Yang Liu, Hao Chen, Pengcheng Xie, Sheng Chang, Yiwu Yao, Gongyi Wang

Резюме на русском

#### Контекст Современные большие языковые модели (LLMs) требуют огромных ресурсов для обучения и работы в реальном времени. Новации в сжатии моделей, такие как сжатие весов (weight sparsity) или активаций (activation sparsity), позволяют эффективно снизить потребление ресурсов. Однако большинство методов сжатия требуют дополнительного обучения модели или приводят к существенному снижению качества работы. Эти ограничения становятся критичными при оптимизации LLMs в сценариях, где необходимо быстрое выполнение или ограниченные ресурсы, такие как мобильные устройства или высоконагруженные сервера. #### Метод Amber Pruner представляет собой метод сжатия активаций (activation sparsity), основанный на подходе N:M, применяемый к процессу предобученных моделей, без дополнительного обучения. Он фокусируется на ускорении процесса предобработки (prefill), особенно в слоях линейной проекции (linear projection), которые являются одними из наиболее трудоемких в LLMs. Алгоритм использует динамическую характеристику активаций для определения структурного сжатия, что позволяет уменьшить количество вычислений без ущерба качеству. Кроме того, Amber Pruner объединяется с пост-обучающим сжатием (post-training quantization) в рамках универсального фреймфорка Outstanding-sparse, который поддерживает работу с сжатыми моделями в режиме 8-бит (W8A8) без потерь качества. Этот подход позволяет значительно ускорить работу моделей в широком круге сценариев применения. #### Результаты Эксперименты проводились на нескольких моделях LLMs, включая те, которые используются в реальной среде. Были протестированы различные степени сжатия (N:M спарсинг 2:4, 4:8, 8:16). Результаты показали, что Amber Pruner ускоряет вычисления на более чем 55% без снижения качества работы. Особенно выдающимися результатами выступает сценарий предобработки (prefill), где главной задачей является решение структурных задач без тренировки модели. Добавление Outstanding-sparse позволяет повысить уровень универсальности и эффективности работы моделей, специально для задач генерации и контекстно-зависимых задач. #### Значимость Amber Pruner и Outstanding-sparse открывают новые возможности для сжатия LLMs в реальном времени. Эти методы позволяют существенно уменьшить потребление памяти и вычислительных ресурсов, что делает модели более доступными для использования на мобильных устройствах, на низкопроизводительных серверах и в сетевых сценариях с ограниченными потоками. Этот подход может открыть путь к универсальным архитектурам AI, где сжатость и производительность будут достигать новых высот. #### Выводы Результаты Amber Pruner показывают, что технологии N:M sparsity могут использоваться для эф

Abstract

In the era of large language models (LLMs), N:M sparsity has emerged as a structured compression technique critical for accelerating inference. While prior work has primarily focused on weight sparsity, it often suffers from significant accuracy degradation. Activation sparsity, though promising, is typically training-dependent and faces challenges in generalization. To address these limitations, we introduce Amber Pruner, a training-free N:M activation sparsity method designed specifically for the prefill stage, targeting the acceleration of linear projection layers in LLMs. Extensive experiments across multiple models and sparsity ratios (2:4, 4:8, and 8:16) demonstrate that Amber Pruner can effectively sparsify and accelerate more than 55% of linear computations without requiring model retraining. To further enhance generality and efficiency, we propose Outstanding-sparse, a unified framework that integrates Amber Pruner with post-training W8A8 quantization. Our approach preserves strong performance across a range of downstream tasks, with notable advantages in generative tasks. This work pioneers a new frontier in activation sparsity, providing foundational insights that are poised to guide the co-evolution of algorithms and architectures in the design of next-generation AI systems.

Ссылки и действия