Amber Pruner: Leveraging N:M Activation Sparsity for Efficient Prefill in Large Language Models
2508.02128v1
cs.LG, cs.AI
2025-08-09
Авторы:
Tai An, Ruwu Cai, Yanzhe Zhang, Yang Liu, Hao Chen, Pengcheng Xie, Sheng Chang, Yiwu Yao, Gongyi Wang
Резюме на русском
#### Контекст
Современные большие языковые модели (LLMs) требуют огромных ресурсов для обучения и работы в реальном времени. Новации в сжатии моделей, такие как сжатие весов (weight sparsity) или активаций (activation sparsity), позволяют эффективно снизить потребление ресурсов. Однако большинство методов сжатия требуют дополнительного обучения модели или приводят к существенному снижению качества работы. Эти ограничения становятся критичными при оптимизации LLMs в сценариях, где необходимо быстрое выполнение или ограниченные ресурсы, такие как мобильные устройства или высоконагруженные сервера.
#### Метод
Amber Pruner представляет собой метод сжатия активаций (activation sparsity), основанный на подходе N:M, применяемый к процессу предобученных моделей, без дополнительного обучения. Он фокусируется на ускорении процесса предобработки (prefill), особенно в слоях линейной проекции (linear projection), которые являются одними из наиболее трудоемких в LLMs. Алгоритм использует динамическую характеристику активаций для определения структурного сжатия, что позволяет уменьшить количество вычислений без ущерба качеству.
Кроме того, Amber Pruner объединяется с пост-обучающим сжатием (post-training quantization) в рамках универсального фреймфорка Outstanding-sparse, который поддерживает работу с сжатыми моделями в режиме 8-бит (W8A8) без потерь качества. Этот подход позволяет значительно ускорить работу моделей в широком круге сценариев применения.
#### Результаты
Эксперименты проводились на нескольких моделях LLMs, включая те, которые используются в реальной среде. Были протестированы различные степени сжатия (N:M спарсинг 2:4, 4:8, 8:16). Результаты показали, что Amber Pruner ускоряет вычисления на более чем 55% без снижения качества работы. Особенно выдающимися результатами выступает сценарий предобработки (prefill), где главной задачей является решение структурных задач без тренировки модели. Добавление Outstanding-sparse позволяет повысить уровень универсальности и эффективности работы моделей, специально для задач генерации и контекстно-зависимых задач.
#### Значимость
Amber Pruner и Outstanding-sparse открывают новые возможности для сжатия LLMs в реальном времени. Эти методы позволяют существенно уменьшить потребление памяти и вычислительных ресурсов, что делает модели более доступными для использования на мобильных устройствах, на низкопроизводительных серверах и в сетевых сценариях с ограниченными потоками. Этот подход может открыть путь к универсальным архитектурам AI, где сжатость и производительность будут достигать новых высот.
#### Выводы
Результаты Amber Pruner показывают, что технологии N:M sparsity могут использоваться для эф
Abstract
In the era of large language models (LLMs), N:M sparsity has emerged as a
structured compression technique critical for accelerating inference. While
prior work has primarily focused on weight sparsity, it often suffers from
significant accuracy degradation. Activation sparsity, though promising, is
typically training-dependent and faces challenges in generalization. To address
these limitations, we introduce Amber Pruner, a training-free N:M activation
sparsity method designed specifically for the prefill stage, targeting the
acceleration of linear projection layers in LLMs. Extensive experiments across
multiple models and sparsity ratios (2:4, 4:8, and 8:16) demonstrate that Amber
Pruner can effectively sparsify and accelerate more than 55% of linear
computations without requiring model retraining. To further enhance generality
and efficiency, we propose Outstanding-sparse, a unified framework that
integrates Amber Pruner with post-training W8A8 quantization. Our approach
preserves strong performance across a range of downstream tasks, with notable
advantages in generative tasks. This work pioneers a new frontier in activation
sparsity, providing foundational insights that are poised to guide the
co-evolution of algorithms and architectures in the design of next-generation
AI systems.
Ссылки и действия
Дополнительные ресурсы: