Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning
2508.07101v1
cs.CL, cs.AI
2025-08-13
Авторы:
Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali
Резюме на русском
####################
## Контекст
####################
Улучшение размерности и скорости вывода является ключевым заданием в машинном обучении, особенно при работе с текстовыми данными. Несмотря на улучшения, достигнутые большими моделями в области логического роста, эти модели требуют большого объема вычислительных ресурсов, особенно при оценке большого количества токенов. Это становится проблемой в случае коротких входных запросов, где вычислительные затраты на построение выходных последовательностей не пропорциональны входной информации. Более того, существующие спарсированные механизмы внимания, которые пытаются уменьшить эти затраты, часто подвержены ошибкам, которые накапливаются при длительном генерировании. Эти ошибки могут привести к ухудшению точности. Мы предлагаем LessIsMore, новый механизм спарсированного внимания, который работает без необходимости дополнительного обучения, используя глобальные взаимосвязи вместо локальных оптимизаций. Это позволяет повысить эффективность и обеспечить лучшую универсальность.
####################
## Метод
####################
Мы предлагаем LessIsMore, многоголосийский механизм спарсированного внимания, который агрегирует выбор токенов из локальных заголовков вместе с реконтекстуализацией на основе контекста. Метод работает следующим образом: выбранные токены из каждого локального заголовка объединяются и преобразуются в общую оценку всех токенов во всех заголовках. Это позволяет уменьшить количество токенов, которые необходимо обрабатывать при декодировании, при этом сохраняя точность. Механизм LessIsMore не требует дополнительного обучения и может применяться как к существующим моделям, так и к новым. Этот подход уменьшает требования к вычислительным ресурсам и повышает производительность, сохраняя высокую точность.
####################
## Результаты
####################
Мы использовали LessIsMore в различных моделях логического роста и выполнили эксперименты на различных бенчмарках. Наши результаты показывают, что LessIsMore повышает эффективность, снижая число обрабатываемых токенов на $2\times$ по сравнению с существующими методами, при этом сохраняя высокую точность. Он позволяет снизить затраты на вычисления на $1.1\times$ в сравнении с полным вниманием и $1.13\times$ по сравнению с другими спарсированными методами. Это демонстрирует, что LessIsMore может эффективно уменьшить затраты на вычисления при оценке данных, не теряя точности.
####################
## Значимость
####################
LessIsMore может быть применен в различных областях, где требуется высокая производительность и эффективность при обработке текстовых данных. Это может быть полезно в ситуациях, когда требуется высокая скорость вывода, таких как в реальном времени генер
Abstract
Large reasoning models achieve strong performance through test-time scaling
but incur substantial computational overhead, particularly from excessive token
generation when processing short input prompts. While sparse attention
mechanisms can reduce latency and memory usage, existing approaches suffer from
significant accuracy degradation due to accumulated errors during
long-generation reasoning. These methods generally require either high token
retention rates or expensive retraining. We introduce LessIsMore, a
training-free sparse attention mechanism for reasoning tasks, which leverages
global attention patterns rather than relying on traditional head-specific
local optimizations. LessIsMore aggregates token selections from local
attention heads with recent contextual information, enabling unified cross-head
token ranking for future decoding layers. This unified selection improves
generalization and efficiency by avoiding the need to maintain separate token
subsets per head. Evaluation across diverse reasoning tasks and benchmarks
shows that LessIsMore preserves -- and in some cases improves -- accuracy while
achieving a $1.1\times$ average decoding speed-up compared to full attention.
Moreover, LessIsMore attends to $2\times$ fewer tokens without accuracy loss,
achieving a $1.13\times$ end-to-end speed-up compared to existing sparse
attention methods.
Ссылки и действия
Дополнительные ресурсы: