InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering
2509.12765v1
cs.IR, cs.AI, cs.CL
2025-09-18
Авторы:
Zihan Wang, Zihan Liang, Zhou Shao, Yufei Ma, Huangyu Dai, Ben Chen, Lingtao Mao, Chenyi Lei, Yuqing Ding, Han Li
Резюме на русском
## Контекст
Retrieval-Augmented Generation (RAG) является прорывом в области генерируемых бо LLM-системами текстов, способствуя решению трех основных проблем: hallucination, устаревшей информации и отсутствия ссылок. Однако, существующие RAG-фреймворки часто сталкиваются с проблемой оценки значимости полученных документов для генерации точных ответов. Это затрудняет отбор нужных фрагментов и отсеивание ненужных, что влияет на качество ответа. Для решения этой проблемы нужна метрика, которая сможет эффективно оценивать вклад каждого документа в генерацию корректных ответов.
## Метод
Мы предлагаем **Document Information Gain (DIG)** — новую метрику для оценки значимости документов. DIG вычисляется как разница между уровнем уверенности LLM в генерации ответов с использованием документа и без него. Мы также предлагаем **InfoGain-RAG** — фреймворк, использующий DIG для построения специальной системы рейтингов. Эта система отбирает документы с наиболее точным соотнесением и отсеивает ненужные, улучшая результат генерации ответов.
## Результаты
Мы провели эксперименты на различных моделях и наборах данных. На NaturalQA InfoGain-RAG показал улучшение в exact match accuracy на 17.9%, 4.5% и 12.5% по сравнению с тремя популярными RAG-решениями. На GPT-4o InfoGain-RAG дал среднее увеличение точности ответов на 15.3% по всем датасетам. Эти результаты доказывают, что InfoGain-RAG эффективно отбирает значимые документы и улучшает качество генерируемых ответов в разных сценариях.
## Значимость
Предложенный подход может быть применен в различных областях, где требуется высококачественная информация, таких как здравоохранение, юридическое обслуживание и финансы. Он позволяет избегать ошибок, связанных с неточными ответами, и повышает уровень доверия к генерируемым текстам. Этот фреймворк может полностью изменить стандарты в области RAG.
## Выводы
Мы представили InfoGain-RAG — систему, которая доказала свою эффективность в локализации и отборе наиболее полезных документов. Наше исследование открывает новые пути для развития RAG, стабилизируя его и улучшая качество генерируемых ответов. Мы также планируем продолжать работу над улучшением DIG и интеграцией с другими моделями.
Abstract
Retrieval-Augmented Generation (RAG) has emerged as a promising approach to
address key limitations of Large Language Models (LLMs), such as hallucination,
outdated knowledge, and lacking reference. However, current RAG frameworks
often struggle with identifying whether retrieved documents meaningfully
contribute to answer generation. This shortcoming makes it difficult to filter
out irrelevant or even misleading content, which notably impacts the final
performance. In this paper, we propose Document Information Gain (DIG), a novel
metric designed to quantify the contribution of retrieved documents to correct
answer generation. DIG measures a document's value by computing the difference
of LLM's generation confidence with and without the document augmented.
Further, we introduce InfoGain-RAG, a framework that leverages DIG scores to
train a specialized reranker, which prioritizes each retrieved document from
exact distinguishing and accurate sorting perspectives. This approach can
effectively filter out irrelevant documents and select the most valuable ones
for better answer generation. Extensive experiments across various models and
benchmarks demonstrate that InfoGain-RAG can significantly outperform existing
approaches, on both single and multiple retrievers paradigm. Specifically on
NaturalQA, it achieves the improvements of 17.9%, 4.5%, 12.5% in exact match
accuracy against naive RAG, self-reflective RAG and modern ranking-based RAG
respectively, and even an average of 15.3% increment on advanced proprietary
model GPT-4o across all datasets. These results demonstrate the feasibility of
InfoGain-RAG as it can offer a reliable solution for RAG in multiple
applications.
Ссылки и действия
Дополнительные ресурсы: