REFRAG: Rethinking RAG based Decoding

2509.01092v1 cs.CL, cs.AI, cs.LG 2025-09-05
Авторы:

Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan

Резюме на русском

## Контекст В последние годы Large Language Models (LLM) проявили великолепные возможности в области понимания и генерации текстов, благодаря их способности использовать богатые внешние источники знаний. Одна из применимых областей использования LLM — это Retrieval-Augmented Generation (RAG), где модели объединяют генерирование ответов с внедрением специфической информации, извлекаемой из внешних источников. Однако, внедрение больших контекстов в LLM приводит к значительным задержкам в обработке запросов и высоким потреблением памяти. Эти проблемы становятся особенно актуальными при работе с длинными документами и многоключевыми задачами. Особенность RAG заключается в том, что часть контекста, полученная в результате поиска, содержит низкую семантическую связность и часто низкоудобственную информацию. Это приводит к нетипичным для стандартных задач генерации нерегулярным шаблонам внимания в моделях. Наше исследование направлено на решение этих проблем и повышение эффективности моделей в RAG-приложениях. ## Метод Мы предложили REFRAG — новую эффективную систему для улучшения обработки длинных контекстов в RAG. Наша методология основывается на трех основных компонентах: сжатии контекста, дальновидного сенсорного режима и расширении контекста. В первом этапе мы сокращаем ненужную часть контекста, используя специальные алгоритмы сжатия. Во втором этапе, мы применяем умножение матриц, что позволяет выделить и обработать только семантически значимые части контекста. В третьем этапе мы расширяем контекст модели, добавляя дополнительные семантически связанные фрагменты. Это позволяет увеличить общую эффективность за счет повышения семантической связности и снижения затрат на вычисления. ## Результаты Мы провели эксперименты на различных датасетах и задачах, включая многоключевую генерацию, многоключевые диалоги и длинную документ-суммаризацию. Наши результаты показали, что REFRAG обеспечивает скорость обработки запросов, которая 30,85 раз быстрее, чем базовые LLM-модели, с удержанием точности результатов на уровне стандартных моделей. Благодаря упрощению вычислительных процессов, мы удалось увеличить контекст на 16, не нарушая качество ответов. Это значительно повышает скорость и эффективность в RAG-приложениях, позволяя моделям обрабатывать большие контексты за меньшее время. ## Значимость Наша работа показала, что REFRAG может применяться в различных областях, включая системы поиска, системы диалогов и генерацию ответов на запросы. Особенно она полезна в задачах, требующих быстрого и точного обращения к большим объемам информации.

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

Ссылки и действия