ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models
2508.17892v1
cs.CL, cs.LG
2025-08-27
Авторы:
Manlai Liang, Mandi Liu, Jiangzhou Ji, Huaijun Li, Haobo Yang, Yaohan He, Jinlong Li
Резюме на русском
#### Контекст
Large Language Models (LLMs) достигли выдающихся результатов по многим задачам. Однако они сталкиваются со сложностями при работе с длинными контекстами. Эти проблемы возникают из-за ограниченной эффективной длины контекста, высокой вычислительной сложности, оценивающейся квадратично, и высокого потребления памяти при обработке длинных входных строк. Такие ограничения становятся помехой при использовании LLMs в сценариях, требующих обработки длинных документов или контекстов. Чтобы устранить эти проблемы, разработана методика, названная Intermediate Layer Retrieval (ILRe), которая направлена на эффективное сжатие контекста без потери смысла.
#### Метод
ILRe предлагает новую подходящую стратегию сжатия контекста. Она определяет оптимальный уровень декодирования во время обучения или в процессе моделирования. Затем процесс предварительной загрузки (prefilling) контекста ограничивается до этого уровня. Остальная часть контекста доступна через аттенционные срезы. Для того, чтобы сохранить полноту смысла, в ILRe введена стратегия мульти-пулинга (multi-pooling kernels), способная обеспечить полную восстановление смысла в контекстных сценариях. В результате, ILRe уменьшает вычислительный вес входного запроса, а также повышает быстродействие, не требуя дополнительной моделирования или пост-обучения.
#### Результаты
Исследования подтвердили эффективность ILRe в обработке длинных контекстов. Например, модель Llama-3.1-UltraLong-8B-1M-Instruct, обрабатывая запросы до 1 миллиона токенов, ускорялась примерно в 180 раз, получив результат RULER-$1M$ близкий к 79.8. Эти результаты были достигнуты на Huawei Ascend 910B NPU без дополнительных модификаций модели или дополнительного обучения. Это демонстрирует то, что ILRe эффективно сжимает контекст, сохраняя качество и быстродействие.
#### Значимость
ILRe может быть применено в сценариях, требующих высокого быстродействия при обработке длинных документов, таких как поиск, ранжирование, моделирование диалогов в телекоммуникационных системах или анализ текстов в машинном обучении. Основные преимущества ILRe заключаются в снижении сложности предварительной загрузки, улучшении производительности и сохранении точности результатов, даже при обработке очень длинных запросов. Эти достижения открывают пути для более эффективного использования LLMs в задачах, требующих огромных объемов контекста.
#### Выводы
Предложенная ILRe-методика достигает существенного ускорения и эффективности при обработке длинных контекстов в LLMs без дополнительного накладываемого кода или моделей. Она эффективно сжимает контекст, поддерживая качество д
Abstract
Large Language Models (LLMs) have demonstrated success across many
benchmarks. However, they still exhibit limitations in long-context scenarios,
primarily due to their short effective context length, quadratic computational
complexity, and high memory overhead when processing lengthy inputs. To
mitigate these issues, we introduce a novel context compression pipeline,
called Intermediate Layer Retrieval (ILRe), which determines one intermediate
decoder layer offline, encodes context by streaming chunked prefill only up to
that layer, and recalls tokens by the attention scores between the input query
and full key cache in that specified layer. In particular, we propose a
multi-pooling kernels allocating strategy in the token recalling process to
maintain the completeness of semantics. Our approach not only reduces the
prefilling complexity from $O(L^2)$ to $O(L)$, but also achieves performance
comparable to or better than the full context in the long context scenarios.
Without additional post training or operator development, ILRe can process a
single $1M$ tokens request in less than half a minute (speedup $\approx
180\times$) and scores RULER-$1M$ benchmark of $\approx 79.8$ with model
Llama-3.1-UltraLong-8B-1M-Instruct on a Huawei Ascend 910B NPU.
Ссылки и действия
Дополнительные ресурсы: