Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning
2508.03018v1
cs.AI, cs.RO
2025-08-09
Авторы:
Yutong Wang, Pengliang Ji, Kaixin Li, Baolong Bi, Tao Feng, Guillaume Sartoretti
Резюме на русском
Научная статья "Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning" рассматривает проблему применения Large Language Reasoning Models в средах с многократным взаимодействием и неполными подсказками. Основные трудности — недостаточная кредитная ассигнования в условиях дешевых наград и высокая сложность обработки длинных цепочек рассуждений. Авторы предлагают BPO — рамфркм, основанный на трех этапах: бутстрапинг, курсумлернинг и рефинирование. Он использует планирование с помощью логических кватернионов и цепочек мышления, стратегическое обучение по сложности, а также выбор опытов с помощью реварда-гейтетированной отборки. Эксперименты показали, что BPO дает новый подход к решению задач многошагового планирования в противоречивых и сложных средах, устанавливая новый стандарт в этой области.
Abstract
Large Language Reasoning Models have demonstrated remarkable success on
static tasks, yet their application to multi-round agentic planning in
interactive environments faces two fundamental challenges. First, the
intractable credit assignment problem renders conventional reinforcement
learning ineffective in sparse-reward settings. Second, the computational
overhead of verbose, step-by-step reasoning histories is prohibitive. To
address these challenges, we propose BPO, a three-stage framework
(bootstrapping, extrapolation, and refinement) that establishes a
self-improving data flywheel to develop robust reasoning models for
long-horizon, sparse-reward environments. Our framework first bootstraps
efficient reasoning using the proposed planning quaternions with long-short
chain-of-thought fusion. It then extrapolates to out-of-distribution tasks
through complexity-stratified curriculum learning. Finally, the model
iteratively refines itself by learning exclusively on experiences selected via
reward-gated rejection sampling. Experiments on ALFWorld, ScienceWorld, and
WebShop demonstrate that our approach achieves state-of-the-art with
significant token efficiency, providing a new recipe for reasoning models in
agentic planning.
Ссылки и действия
Дополнительные ресурсы: