ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models

2508.17892v1 cs.CL, cs.LG 2025-08-27

Авторы:

Manlai Liang, Mandi Liu, Jiangzhou Ji, Huaijun Li, Haobo Yang, Yaohan He, Jinlong Li

Резюме на русском

#### Контекст Large Language Models (LLMs) достигли выдающихся результатов по многим задачам. Однако они сталкиваются со сложностями при работе с длинными контекстами. Эти проблемы возникают из-за ограниченной эффективной длины контекста, высокой вычислительной сложности, оценивающейся квадратично, и высокого потребления памяти при обработке длинных входных строк. Такие ограничения становятся помехой при использовании LLMs в сценариях, требующих обработки длинных документов или контекстов. Чтобы устранить эти проблемы, разработана методика, названная Intermediate Layer Retrieval (ILRe), которая направлена на эффективное сжатие контекста без потери смысла. #### Метод ILRe предлагает новую подходящую стратегию сжатия контекста. Она определяет оптимальный уровень декодирования во время обучения или в процессе моделирования. Затем процесс предварительной загрузки (prefilling) контекста ограничивается до этого уровня. Остальная часть контекста доступна через аттенционные срезы. Для того, чтобы сохранить полноту смысла, в ILRe введена стратегия мульти-пулинга (multi-pooling kernels), способная обеспечить полную восстановление смысла в контекстных сценариях. В результате, ILRe уменьшает вычислительный вес входного запроса, а также повышает быстродействие, не требуя дополнительной моделирования или пост-обучения. #### Результаты Исследования подтвердили эффективность ILRe в обработке длинных контекстов. Например, модель Llama-3.1-UltraLong-8B-1M-Instruct, обрабатывая запросы до 1 миллиона токенов, ускорялась примерно в 180 раз, получив результат RULER-$1M$ близкий к 79.8. Эти результаты были достигнуты на Huawei Ascend 910B NPU без дополнительных модификаций модели или дополнительного обучения. Это демонстрирует то, что ILRe эффективно сжимает контекст, сохраняя качество и быстродействие. #### Значимость ILRe может быть применено в сценариях, требующих высокого быстродействия при обработке длинных документов, таких как поиск, ранжирование, моделирование диалогов в телекоммуникационных системах или анализ текстов в машинном обучении. Основные преимущества ILRe заключаются в снижении сложности предварительной загрузки, улучшении производительности и сохранении точности результатов, даже при обработке очень длинных запросов. Эти достижения открывают пути для более эффективного использования LLMs в задачах, требующих огромных объемов контекста. #### Выводы Предложенная ILRe-методика достигает существенного ускорения и эффективности при обработке длинных контекстов в LLMs без дополнительного накладываемого кода или моделей. Она эффективно сжимает контекст, поддерживая качество д

Abstract

Large Language Models (LLMs) have demonstrated success across many benchmarks. However, they still exhibit limitations in long-context scenarios, primarily due to their short effective context length, quadratic computational complexity, and high memory overhead when processing lengthy inputs. To mitigate these issues, we introduce a novel context compression pipeline, called Intermediate Layer Retrieval (ILRe), which determines one intermediate decoder layer offline, encodes context by streaming chunked prefill only up to that layer, and recalls tokens by the attention scores between the input query and full key cache in that specified layer. In particular, we propose a multi-pooling kernels allocating strategy in the token recalling process to maintain the completeness of semantics. Our approach not only reduces the prefilling complexity from $O(L^2)$ to $O(L)$, but also achieves performance comparable to or better than the full context in the long context scenarios. Without additional post training or operator development, ILRe can process a single $1M$ tokens request in less than half a minute (speedup $\approx 180\times$) and scores RULER-$1M$ benchmark of $\approx 79.8$ with model Llama-3.1-UltraLong-8B-1M-Instruct on a Huawei Ascend 910B NPU.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация