GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation

2508.14302v1 cs.LG, cs.AI, cs.CL 2025-08-22

Авторы:

Amirmohsen Sattarifard, Sepehr Lavasani, Ehsan Imani, Kunlin Zhang, Hanlin Xu, Fengyu Sun, Negar Hassanpour, Chao Gao

Резюме на русском

#### Контекст Large Language Models (LLMs) становятся все более популярными в сферах, требующих высокого вычислительного мощности, таких как машинное обучение, глубокое обучение и анализ текстов. Однако их применение на edge-устройствах ограничено тем, что они требуют большого объема вычислений и памяти. Для того, чтобы решить эту проблему, активно исследуются способы оптимизации их работы, в том числе использование динамического удаления нейронов (sparSification), которое позволяет уменьшить вычисления без существенного снижения качества. Однако существующие методы либо требуют дополнительных подготовительных этапов и дополнительного обучения, либо не подходят для конкретных сценариев работы, например, для коротких запросов или длительной генерации текста. Это создает необходимость разработки более эффективных, тренировка-свободных методов, которые могут динамически выбирать нейроны во время исполнения. #### Метод Мы предлагаем два метода, основанные на глобально-локальной структуре модели, для динамического спарсинга слоёв feed-forward (FFN) в LLMs: **Activation-based Global-Local Neural Importance Aggregation (AI-GLASS)** и **Impact-based Global-Local Neural Importance Aggregation (AI-GLASS)**. Основная идея заключается в использовании двух разных типов статистик: локальной статистики, полученной из данных для конкретного запроса (prompt) и модельной внутренней статистики, описывающей влияние каждого нейрона на результат. Для выбора нейронов, которые будут включены в вычисления, мы применяем ранжирование по рейтингу (rank-aggregation), что позволяет уменьшить вычислительный затрат без ухудшения качества. Эти методы не требуют дополнительного обучения и могут быть использованы в реальном времени, что делает их привлекательными для применения в реальных системах. #### Результаты Мы провести эксперименты с различными LLMs, включая сети с несколькими слоями и разным количеством параметров. Мы сравнили нашу процедуру с другими методами спарсинга, в том числе теми, которые используют дополнительные тренировки или нулевой-шат-методы. Результаты показали, что наша методика GLASS превосходит другие методы в сценариях с длинными запросами, когда другие методы страдают от снижения качества. Мы также провели эксперименты на реальных данных, в том числе на данных для диалоговых систем и текстовой генерации. Эти результаты подтвердили, что GLASS даёт значительно более высокую скорость выполнения, при этом сохраняя качество вывода. #### Значимость Наша методика GLASS может применяться в различных областях, где требуется работа над LLMs на edge-устройствах, таких как мобильные приложения, браузерные расширения и IoT-устройства. Она позволяет эффективно использовать ресурсы, снижая вычислительные зат

Abstract

Deploying Large Language Models (LLMs) on edge hardware demands aggressive, prompt-aware dynamic pruning to reduce computation without degrading quality. Static or predictor-based schemes either lock in a single sparsity pattern or incur extra runtime overhead, and recent zero-shot methods that rely on statistics from a single prompt fail on short prompt and/or long generation scenarios. We introduce A/I-GLASS: Activation- and Impact-based Global-Local neural importance Aggregation for feed-forward network SparSification, two training-free methods that dynamically select FFN units using a rank-aggregation of prompt local and model-intrinsic global neuron statistics. Empirical results across multiple LLMs and benchmarks demonstrate that GLASS significantly outperforms prior training-free methods, particularly in challenging long-form generation scenarios, without relying on auxiliary predictors or adding any inference overhead.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация