DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval

2508.07995v2 cs.IR, cs.AI 2025-08-13
Авторы:

Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu, Jiahai Wang

Резюме на русском

#### Контекст Возникновение новых значимых открытий в области расширения возможностей искусственного интеллекта для улучшения ретриева информации демонстрирует важность развития систем, способных эффективно решать задачи, требующие рационального мышления. Обычные методы, основанные на лексических и семантических совпадениях, часто не могут справиться с задачами, требующими абстрактного рассуждения, аналогичного мышления или многоэтапного вывода. Например, рассмотрим запросы, требующие поиска решений для многоуровневых проблем в сфере финансового анализа или юридического совета. Эти сложности вынуждают разработчиков искать более внимательные подходы, которые могут улучшить качество ретриева информации, выполняя сложные вычисления и анализ. #### Метод DIVER представляет собой многоэтапную модель, специально разработанную для решения задач, требующих интенсивного рассуждения. Она состоит из четырех ключевых компонентов. В начале используется процесс обработки документов, направленный на улучшение качества входных данных. Затем вводится LLM-driven query expansion, основанный на итеративной модели интеракции с документами, которая позволяет обобщить запросы. Эта стадия использует синтетические данные с многоуровневой структурой. Затем DIVER применяет реалистичную модель ретриева, которая включает в себя фазу выделения hard negatives. В заключении, DIVER использует pointwise reranker, который сливает вычисляемые показатели ретриева с оценками полезности, сгенерированными LLM. Эта система стремится повысить качество ретриева информации за счет точного воспроизведения логики и многоуровневого мышления. #### Результаты На тестовой выборке BRIGHT benchmark, DIVER показал выдающиеся результаты на высокосложностных задачах. Он достиг nDCG@10 в 41.6 и 28.9, что значительно превосходит другие модели. Эти результаты указывают на значительное улучшение качества ретриева в сложных задачах, требующих аналитического и абстрактного мышления. Эффективность DIVER подтверждается сравнением с соревнующими моделями, демонстрирующими, что его многоэтапная модель может эффективно обрабатывать задачи, требующие рационального рассуждения. #### Значимость DIVER является важной моделью в области расширения возможностей ретриева информации в сложных сценариях. Эта модель может иметь широкое применение во многих областях, таких как юридический анализ, финансовый мониторинг и медицинский диагноз. Избыточность данных и сложность запросов в этих областях делают DIVER незаменимым инструментом. Он демонстрирует высокую эффективность в решении задач, требующих рационального мышления и анализа.

Abstract

Retrieval-augmented generation has achieved strong performance on knowledge-intensive tasks where query-document relevance can be identified through direct lexical or semantic matches. However, many real-world queries involve abstract reasoning, analogical thinking, or multi-step inference, which existing retrievers often struggle to capture. To address this challenge, we present \textbf{DIVER}, a retrieval pipeline tailored for reasoning-intensive information retrieval. DIVER consists of four components: document processing to improve input quality, LLM-driven query expansion via iterative document interaction, a reasoning-enhanced retriever fine-tuned on synthetic multi-domain data with hard negatives, and a pointwise reranker that combines LLM-assigned helpfulness scores with retrieval scores. On the BRIGHT benchmark, DIVER achieves state-of-the-art nDCG@10 scores of 41.6 and 28.9 on original queries, consistently outperforming competitive reasoning-aware models. These results demonstrate the effectiveness of reasoning-aware retrieval strategies in complex real-world tasks. Our code and retrieval model will be released soon.

Ссылки и действия