GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation
2508.14302v1
cs.LG, cs.AI, cs.CL
2025-08-22
Авторы:
Amirmohsen Sattarifard, Sepehr Lavasani, Ehsan Imani, Kunlin Zhang, Hanlin Xu, Fengyu Sun, Negar Hassanpour, Chao Gao
Резюме на русском
#### Контекст
Large Language Models (LLMs) становятся все более популярными в сферах, требующих высокого вычислительного мощности, таких как машинное обучение, глубокое обучение и анализ текстов. Однако их применение на edge-устройствах ограничено тем, что они требуют большого объема вычислений и памяти. Для того, чтобы решить эту проблему, активно исследуются способы оптимизации их работы, в том числе использование динамического удаления нейронов (sparSification), которое позволяет уменьшить вычисления без существенного снижения качества. Однако существующие методы либо требуют дополнительных подготовительных этапов и дополнительного обучения, либо не подходят для конкретных сценариев работы, например, для коротких запросов или длительной генерации текста. Это создает необходимость разработки более эффективных, тренировка-свободных методов, которые могут динамически выбирать нейроны во время исполнения.
#### Метод
Мы предлагаем два метода, основанные на глобально-локальной структуре модели, для динамического спарсинга слоёв feed-forward (FFN) в LLMs: **Activation-based Global-Local Neural Importance Aggregation (AI-GLASS)** и **Impact-based Global-Local Neural Importance Aggregation (AI-GLASS)**. Основная идея заключается в использовании двух разных типов статистик: локальной статистики, полученной из данных для конкретного запроса (prompt) и модельной внутренней статистики, описывающей влияние каждого нейрона на результат. Для выбора нейронов, которые будут включены в вычисления, мы применяем ранжирование по рейтингу (rank-aggregation), что позволяет уменьшить вычислительный затрат без ухудшения качества. Эти методы не требуют дополнительного обучения и могут быть использованы в реальном времени, что делает их привлекательными для применения в реальных системах.
#### Результаты
Мы провести эксперименты с различными LLMs, включая сети с несколькими слоями и разным количеством параметров. Мы сравнили нашу процедуру с другими методами спарсинга, в том числе теми, которые используют дополнительные тренировки или нулевой-шат-методы. Результаты показали, что наша методика GLASS превосходит другие методы в сценариях с длинными запросами, когда другие методы страдают от снижения качества. Мы также провели эксперименты на реальных данных, в том числе на данных для диалоговых систем и текстовой генерации. Эти результаты подтвердили, что GLASS даёт значительно более высокую скорость выполнения, при этом сохраняя качество вывода.
#### Значимость
Наша методика GLASS может применяться в различных областях, где требуется работа над LLMs на edge-устройствах, таких как мобильные приложения, браузерные расширения и IoT-устройства. Она позволяет эффективно использовать ресурсы, снижая вычислительные зат
Abstract
Deploying Large Language Models (LLMs) on edge hardware demands aggressive,
prompt-aware dynamic pruning to reduce computation without degrading quality.
Static or predictor-based schemes either lock in a single sparsity pattern or
incur extra runtime overhead, and recent zero-shot methods that rely on
statistics from a single prompt fail on short prompt and/or long generation
scenarios. We introduce A/I-GLASS: Activation- and Impact-based Global-Local
neural importance Aggregation for feed-forward network SparSification, two
training-free methods that dynamically select FFN units using a
rank-aggregation of prompt local and model-intrinsic global neuron statistics.
Empirical results across multiple LLMs and benchmarks demonstrate that GLASS
significantly outperforms prior training-free methods, particularly in
challenging long-form generation scenarios, without relying on auxiliary
predictors or adding any inference overhead.
Ссылки и действия
Дополнительные ресурсы: