OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
2508.16438v1
cs.IR, cs.AI
2025-08-26
Авторы:
Yu Liu, Yanbing Liu, Fangfang Yuan, Cong Cao, Youbang Sun, Kun Peng, WeiZhuo Chen, Jianjun Li, Zhiyuan Ma
Резюме на русском
## Контекст
В последнее время технологии генерирующих значимых ответов на основе вопросов (Retrieval-Augmented Generation, RAG) получили значительные улучшения благодаря развитию больших моделей языка (LLMs) и продвинутым системам доступа к документам (dense retrievers). Однако большинство существующих методов сталкиваются с трудностями при выполнении усложненных задач многошагового (многохопного) рассуждения, таких как устаревшие техники планирования, реформулирование запросов и отбор информации. Эти ограничения могут привести к поддельным результатам или неэффективным поисковым процессам. Целью этой работы является создание архитектуры, эффективно связывающей рассуждающий поиск и выполнение задач, чтобы улучшить ответы на запросы с многоступенчатым рассуждением.
## Метод
Мы предлагаем метод под названием OPERA (Orchestrated Planner-Executor Reasoning Architecture), который включает в себя два главных модуля: Goal Planning Module (GPM) и Reason-Execute Module (REM). GPM декомпозирует запрос на множество подзадач (sub-goals), которые затем обрабатываются REM. REM включает специализированные модули для точного рассуждения и оптимального доступа к источникам. Для обучения OPERA мы предлагаем Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO), новый вариант метода политики градиента для многоагентных систем. Архитектура OPERA ориентирована на эффективное планирование и выполнение, чтобы улучшить точность и полноту ответов.
## Результаты
Мы проводили эксперименты на нескольких сложных многошаговых задачах, включая ComplexWebQuestions и HotpotQA. Опыт показал, что OPERA превосходит текущие методы по метрикам точности и полноты ответов. В частности, OPERA показал значительное улучшение в сравнении с существующими системами, демонстрируя его эффективность в логическом планировании и выполнении задач. Эксперименты также продемонстрировали, что MAPGRPO позволяет улучшать процесс обучения и применяться для повышения уровня сложности задач, которые могут быть решены OPERA.
## Значимость
Предложенная архитектура OPERA имеет широкие возможности применения в области генерирующих технологий, таких как роботов чата и системы поддержки решений. Она имеет преимущества по сравнению с другими подходами в ситуациях, требующих логического рассуждения и многошагового доступа к информации. Ожидается, что OPERA сможет стать ключевым инструментом для улучшения задач, требующих высокого уровня рассуждения, таких как работа с новостными данными, обработка технических запросов и поиск решений в области финансов и юриспруденции.
## Выводы
Мы представили OPERA, новую архитектуру для многошагового рассуждения, которая основывается на системах генерирующих ответы на в
Abstract
Recent advances in large language models (LLMs) and dense retrievers have
driven significant progress in retrieval-augmented generation (RAG). However,
existing approaches face significant challenges in complex reasoning-oriented
multi-hop retrieval tasks: 1) Ineffective reasoning-oriented planning: Prior
methods struggle to generate robust multi-step plans for complex queries, as
rule-based decomposers perform poorly on out-of-template questions. 2)
Suboptimal reasoning-driven retrieval: Related methods employ limited query
reformulation, leading to iterative retrieval loops that often fail to locate
golden documents. 3) Insufficient reasoning-guided filtering: Prevailing
methods lack the fine-grained reasoning to effectively filter salient
information from noisy results, hindering utilization of retrieved knowledge.
Fundamentally, these limitations all stem from the weak coupling between
retrieval and reasoning in current RAG architectures. We introduce the
Orchestrated Planner-Executor Reasoning Architecture (OPERA), a novel
reasoning-driven retrieval framework. OPERA's Goal Planning Module (GPM)
decomposes questions into sub-goals, which are executed by a Reason-Execute
Module (REM) with specialized components for precise reasoning and effective
retrieval. To train OPERA, we propose Multi-Agents Progressive Group Relative
Policy Optimization (MAPGRPO), a novel variant of GRPO. Experiments on complex
multi-hop benchmarks show OPERA's superior performance, validating both the
MAPGRPO method and OPERA's design. Code is available at
https://github.com/Ameame1/OPERA.
Ссылки и действия
Дополнительные ресурсы: