OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval

2508.16438v1 cs.IR, cs.AI 2025-08-26
Авторы:

Yu Liu, Yanbing Liu, Fangfang Yuan, Cong Cao, Youbang Sun, Kun Peng, WeiZhuo Chen, Jianjun Li, Zhiyuan Ma

Резюме на русском

## Контекст В последнее время технологии генерирующих значимых ответов на основе вопросов (Retrieval-Augmented Generation, RAG) получили значительные улучшения благодаря развитию больших моделей языка (LLMs) и продвинутым системам доступа к документам (dense retrievers). Однако большинство существующих методов сталкиваются с трудностями при выполнении усложненных задач многошагового (многохопного) рассуждения, таких как устаревшие техники планирования, реформулирование запросов и отбор информации. Эти ограничения могут привести к поддельным результатам или неэффективным поисковым процессам. Целью этой работы является создание архитектуры, эффективно связывающей рассуждающий поиск и выполнение задач, чтобы улучшить ответы на запросы с многоступенчатым рассуждением. ## Метод Мы предлагаем метод под названием OPERA (Orchestrated Planner-Executor Reasoning Architecture), который включает в себя два главных модуля: Goal Planning Module (GPM) и Reason-Execute Module (REM). GPM декомпозирует запрос на множество подзадач (sub-goals), которые затем обрабатываются REM. REM включает специализированные модули для точного рассуждения и оптимального доступа к источникам. Для обучения OPERA мы предлагаем Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO), новый вариант метода политики градиента для многоагентных систем. Архитектура OPERA ориентирована на эффективное планирование и выполнение, чтобы улучшить точность и полноту ответов. ## Результаты Мы проводили эксперименты на нескольких сложных многошаговых задачах, включая ComplexWebQuestions и HotpotQA. Опыт показал, что OPERA превосходит текущие методы по метрикам точности и полноты ответов. В частности, OPERA показал значительное улучшение в сравнении с существующими системами, демонстрируя его эффективность в логическом планировании и выполнении задач. Эксперименты также продемонстрировали, что MAPGRPO позволяет улучшать процесс обучения и применяться для повышения уровня сложности задач, которые могут быть решены OPERA. ## Значимость Предложенная архитектура OPERA имеет широкие возможности применения в области генерирующих технологий, таких как роботов чата и системы поддержки решений. Она имеет преимущества по сравнению с другими подходами в ситуациях, требующих логического рассуждения и многошагового доступа к информации. Ожидается, что OPERA сможет стать ключевым инструментом для улучшения задач, требующих высокого уровня рассуждения, таких как работа с новостными данными, обработка технических запросов и поиск решений в области финансов и юриспруденции. ## Выводы Мы представили OPERA, новую архитектуру для многошагового рассуждения, которая основывается на системах генерирующих ответы на в

Abstract

Recent advances in large language models (LLMs) and dense retrievers have driven significant progress in retrieval-augmented generation (RAG). However, existing approaches face significant challenges in complex reasoning-oriented multi-hop retrieval tasks: 1) Ineffective reasoning-oriented planning: Prior methods struggle to generate robust multi-step plans for complex queries, as rule-based decomposers perform poorly on out-of-template questions. 2) Suboptimal reasoning-driven retrieval: Related methods employ limited query reformulation, leading to iterative retrieval loops that often fail to locate golden documents. 3) Insufficient reasoning-guided filtering: Prevailing methods lack the fine-grained reasoning to effectively filter salient information from noisy results, hindering utilization of retrieved knowledge. Fundamentally, these limitations all stem from the weak coupling between retrieval and reasoning in current RAG architectures. We introduce the Orchestrated Planner-Executor Reasoning Architecture (OPERA), a novel reasoning-driven retrieval framework. OPERA's Goal Planning Module (GPM) decomposes questions into sub-goals, which are executed by a Reason-Execute Module (REM) with specialized components for precise reasoning and effective retrieval. To train OPERA, we propose Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO), a novel variant of GRPO. Experiments on complex multi-hop benchmarks show OPERA's superior performance, validating both the MAPGRPO method and OPERA's design. Code is available at https://github.com/Ameame1/OPERA.

Ссылки и действия