DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
2508.07995v2
cs.IR, cs.AI
2025-08-13
Авторы:
Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu, Jiahai Wang
Резюме на русском
#### Контекст
Возникновение новых значимых открытий в области расширения возможностей искусственного интеллекта для улучшения ретриева информации демонстрирует важность развития систем, способных эффективно решать задачи, требующие рационального мышления. Обычные методы, основанные на лексических и семантических совпадениях, часто не могут справиться с задачами, требующими абстрактного рассуждения, аналогичного мышления или многоэтапного вывода. Например, рассмотрим запросы, требующие поиска решений для многоуровневых проблем в сфере финансового анализа или юридического совета. Эти сложности вынуждают разработчиков искать более внимательные подходы, которые могут улучшить качество ретриева информации, выполняя сложные вычисления и анализ.
#### Метод
DIVER представляет собой многоэтапную модель, специально разработанную для решения задач, требующих интенсивного рассуждения. Она состоит из четырех ключевых компонентов. В начале используется процесс обработки документов, направленный на улучшение качества входных данных. Затем вводится LLM-driven query expansion, основанный на итеративной модели интеракции с документами, которая позволяет обобщить запросы. Эта стадия использует синтетические данные с многоуровневой структурой. Затем DIVER применяет реалистичную модель ретриева, которая включает в себя фазу выделения hard negatives. В заключении, DIVER использует pointwise reranker, который сливает вычисляемые показатели ретриева с оценками полезности, сгенерированными LLM. Эта система стремится повысить качество ретриева информации за счет точного воспроизведения логики и многоуровневого мышления.
#### Результаты
На тестовой выборке BRIGHT benchmark, DIVER показал выдающиеся результаты на высокосложностных задачах. Он достиг nDCG@10 в 41.6 и 28.9, что значительно превосходит другие модели. Эти результаты указывают на значительное улучшение качества ретриева в сложных задачах, требующих аналитического и абстрактного мышления. Эффективность DIVER подтверждается сравнением с соревнующими моделями, демонстрирующими, что его многоэтапная модель может эффективно обрабатывать задачи, требующие рационального рассуждения.
#### Значимость
DIVER является важной моделью в области расширения возможностей ретриева информации в сложных сценариях. Эта модель может иметь широкое применение во многих областях, таких как юридический анализ, финансовый мониторинг и медицинский диагноз. Избыточность данных и сложность запросов в этих областях делают DIVER незаменимым инструментом. Он демонстрирует высокую эффективность в решении задач, требующих рационального мышления и анализа.
Abstract
Retrieval-augmented generation has achieved strong performance on
knowledge-intensive tasks where query-document relevance can be identified
through direct lexical or semantic matches. However, many real-world queries
involve abstract reasoning, analogical thinking, or multi-step inference, which
existing retrievers often struggle to capture. To address this challenge, we
present \textbf{DIVER}, a retrieval pipeline tailored for reasoning-intensive
information retrieval. DIVER consists of four components: document processing
to improve input quality, LLM-driven query expansion via iterative document
interaction, a reasoning-enhanced retriever fine-tuned on synthetic
multi-domain data with hard negatives, and a pointwise reranker that combines
LLM-assigned helpfulness scores with retrieval scores. On the BRIGHT benchmark,
DIVER achieves state-of-the-art nDCG@10 scores of 41.6 and 28.9 on original
queries, consistently outperforming competitive reasoning-aware models. These
results demonstrate the effectiveness of reasoning-aware retrieval strategies
in complex real-world tasks. Our code and retrieval model will be released
soon.
Ссылки и действия
Дополнительные ресурсы: