AQUA: Attention via QUery mAgnitudes for Memory and Compute Efficient Inference in LLMs
2509.11155v1
cs.LG, cs.AI, cs.CL
2025-09-17
Авторы:
Santhosh G S, Saurav Prakash, Balaraman Ravindran
Резюме на русском
#### Контекст
Large Language Models (LLMs) являются мощными инструментами для обработки естественного языка, но их развитие сталкивается с значимыми техническими вызовами. Одной из ключевых проблем является высокая сложность агрегации внимания (attention mechanism), которая растет в квадрате от числа токенов в контексте. Это приводит к большому потреблению вычислительных ресурсов и памяти, ограничивая возможности эффективного использования LLMs в реальном мире. Наличие такой барьера ставит под сомнение эффективность использования LLMs в сценариях, требующих большого контекста, таких как документный поиск, диалоговые системы и анализ больших документов. Наша мотивация заключается в разработке метода, способного эффективно решать эту проблему без существенной потери качества.
#### Метод
Мы предлагаем AQUA (Attention via QUery mAgnitudes) — новую стратегию, способную эффективно approximating attention. Метод работает в двух фазах. В первой фазе происходит оффлайн-подготовка, в ходе которой вычисляется универсальная, языконезависимая проекционная матрица с помощью SVD на калибровочной выборке. Во второй фазе — онлайн-инференсе — векторы запроса (query) и ключа (key) проецируются с помощью подготовленной матрицы, после чего выбирается спарседный набор дименсий, основываясь на мощности запроса (query magnitude). Это дает возможность существенно уменьшить вычислительную нагрузку при одновременном сохранении высокого качества результатов. Изучены аспекты теоретической обоснованности AQUA, в том числе точка переноса, при которой этот метод становится более эффективным, чем стандартная агрегация внимания.
#### Результаты
Мы проводили эксперименты на современных моделях, в том числе Llama-3.1-8B, используя различные бенчмарки. Наши результаты показали, что AQUA позволяет снизить затраты на вычисления внутри агрегации внимания на 25%, при этом не вызывая значительных потерь в качестве ответа. Были проанализированы преимущества с точки зрения уменьшения потребления памяти, включая H2O и KV-cache. Эти результаты подтверждают, что AQUA является эффективным инструментом для ускорения инференса в LLMs, сочетая в себе высокую точность и экономичность.
#### Значимость
AQUA может быть применен в различных сценариях, где требуется большой контекст для обработки языка, включая документный поиск, диалоговые системы и анализ больших данных. Он обеспечивает высокую эффективность с значительными экономиями в вычислительных ресурсах и памяти, без существенных потерь в качестве ответа. Это делает AQUA привлекательным для сценариев, где требуется максимальная производительность с ограниченными ре
Abstract
The quadratic complexity of the attention mechanism remains a fundamental
barrier to scaling Large Language Models (LLMs) to longer contexts, creating a
critical bottleneck in both computation and memory. To address this, we
introduce AQUA (Attention via QUery mAgnitudes) a novel and versatile
approximation strategy that significantly reduces the cost of attention with a
graceful performance trade-off. Our method operates in two phases: an efficient
offline step where we compute a universal, language agnostic projection matrix
via SVD on a calibration dataset, and an online inference step where we project
query and key vectors and dynamically select a sparse subset of dimensions
based on the query's magnitude. We provide a formal theoretical analysis of
AQUA, establishing the break-even point at which it becomes more
computationally efficient than standard attention. Our empirical evaluations on
state-of-the-art models like Llama-3.1-8B demonstrate that a 25% reduction in
the attention dot-product computation can be achieved with a statistically
insignificant impact on performance across a wide range of benchmarks. We
further showcase the versatility of AQUA by demonstrating its ability to
synergistically accelerate existing token eviction methods like H2O and to
directly reduce KV-cache memory size. By offering a controllable knob to
balance efficiency and accuracy, AQUA provides a practical and powerful tool
for making large-scale LLM inference more accessible and sustainable.
Ссылки и действия
Дополнительные ресурсы: