Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

2508.07101v1 cs.CL, cs.AI 2025-08-13
Авторы:

Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali

Резюме на русском

#################### ## Контекст #################### Улучшение размерности и скорости вывода является ключевым заданием в машинном обучении, особенно при работе с текстовыми данными. Несмотря на улучшения, достигнутые большими моделями в области логического роста, эти модели требуют большого объема вычислительных ресурсов, особенно при оценке большого количества токенов. Это становится проблемой в случае коротких входных запросов, где вычислительные затраты на построение выходных последовательностей не пропорциональны входной информации. Более того, существующие спарсированные механизмы внимания, которые пытаются уменьшить эти затраты, часто подвержены ошибкам, которые накапливаются при длительном генерировании. Эти ошибки могут привести к ухудшению точности. Мы предлагаем LessIsMore, новый механизм спарсированного внимания, который работает без необходимости дополнительного обучения, используя глобальные взаимосвязи вместо локальных оптимизаций. Это позволяет повысить эффективность и обеспечить лучшую универсальность. #################### ## Метод #################### Мы предлагаем LessIsMore, многоголосийский механизм спарсированного внимания, который агрегирует выбор токенов из локальных заголовков вместе с реконтекстуализацией на основе контекста. Метод работает следующим образом: выбранные токены из каждого локального заголовка объединяются и преобразуются в общую оценку всех токенов во всех заголовках. Это позволяет уменьшить количество токенов, которые необходимо обрабатывать при декодировании, при этом сохраняя точность. Механизм LessIsMore не требует дополнительного обучения и может применяться как к существующим моделям, так и к новым. Этот подход уменьшает требования к вычислительным ресурсам и повышает производительность, сохраняя высокую точность. #################### ## Результаты #################### Мы использовали LessIsMore в различных моделях логического роста и выполнили эксперименты на различных бенчмарках. Наши результаты показывают, что LessIsMore повышает эффективность, снижая число обрабатываемых токенов на $2\times$ по сравнению с существующими методами, при этом сохраняя высокую точность. Он позволяет снизить затраты на вычисления на $1.1\times$ в сравнении с полным вниманием и $1.13\times$ по сравнению с другими спарсированными методами. Это демонстрирует, что LessIsMore может эффективно уменьшить затраты на вычисления при оценке данных, не теряя точности. #################### ## Значимость #################### LessIsMore может быть применен в различных областях, где требуется высокая производительность и эффективность при обработке текстовых данных. Это может быть полезно в ситуациях, когда требуется высокая скорость вывода, таких как в реальном времени генер

Abstract

Large reasoning models achieve strong performance through test-time scaling but incur substantial computational overhead, particularly from excessive token generation when processing short input prompts. While sparse attention mechanisms can reduce latency and memory usage, existing approaches suffer from significant accuracy degradation due to accumulated errors during long-generation reasoning. These methods generally require either high token retention rates or expensive retraining. We introduce LessIsMore, a training-free sparse attention mechanism for reasoning tasks, which leverages global attention patterns rather than relying on traditional head-specific local optimizations. LessIsMore aggregates token selections from local attention heads with recent contextual information, enabling unified cross-head token ranking for future decoding layers. This unified selection improves generalization and efficiency by avoiding the need to maintain separate token subsets per head. Evaluation across diverse reasoning tasks and benchmarks shows that LessIsMore preserves -- and in some cases improves -- accuracy while achieving a $1.1\times$ average decoding speed-up compared to full attention. Moreover, LessIsMore attends to $2\times$ fewer tokens without accuracy loss, achieving a $1.13\times$ end-to-end speed-up compared to existing sparse attention methods.

Ссылки и действия