Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning

2509.09284v1 cs.AI, cs.CL, cs.LG 2025-09-13
Авторы:

Bingning Huang, Tu Nguyen, Matthieu Zimmer

Резюме на русском

## Контекст Одним из ключевых направлений в развитии искусственного интеллекта является создание алгоритмов, которые могут принимать решения в условиях неопределенности и сложности. Традиционные модели часто сталкиваются с проблемами в обработке сложных задач, требующих многошагового рассуждения и адаптивного поведения. Многошаговое рассуждение является ключевым аспектом в таких областях, как управление, игры, математическая моделирование и решение задач символьной логики. Одна из сложностей заключается в том, чтобы оптимизировать политики, которые могут действовать в условиях неполного или частичного знания. Это влечет за собой необходимость разработки алгоритмов, которые могут использовать частично открытые данные и при этом поддерживать качество решений. Работа Tree-OPO стремится заполнить этот пробел, используя Monte Carlo Tree Search (MCTS) для улучшения оптимизации политик в среде поддержки многошагового рассуждения. ## Метод Методология Tree-OPO основывается на использовании Monte Carlo Tree Search (MCTS) для генерирования полного дерева возможных действий в любой момент времени во время задачи. Основным инновационным моментом является использование частично открытых деревьев для оценки привилегированного префикса в контексте групповой оптимизации политик. Архитектура Tree-OPO включает в себя несколько этапов: 1. **Генерация частичных деревьев**: Для каждого возможного префикса задачи генерируется дерево действий, используя MCTS. 2. **Оценка привилегированного префикса**: Основываясь на частично открытом дереве, вычисляется привилегированный префикс, который помогает оптимизировать политику. 3. **Оптимизация политики**: Используя структурированные выходы MCTS, алгоритм оптимизирует политику, используя Group Relative Policy Optimization (GRPO). Эта структура позволяет алгоритму работать над задачами, требующими многошагового рассуждения, в то же время уменьшая количество необходимого вычислительного ресурса. ## Результаты Эксперименты проводились на ряде сложных задач, включая задачи математического моделирования и решения задач символьной логики. Использованы различные данные, включая текстовые данные, символьные выражения и задачи математической символики. Результаты показали, что Tree-OPO значительно улучшает стабильность обучения и качество решений в сравнении с другими методами. Например, в задачах символьной логики, Tree-OPO показал значительное преимущество в точности решений, а также в способности обрабатывать задачи с частичным знанием. ## Значимость Tree-OPO может быть применен в различных областях, таких как управление, игровые алгоритмы, и решение задач символьной логики.

Abstract

Recent advances in reasoning with large language models (LLMs) have shown the effectiveness of Monte Carlo Tree Search (MCTS) for generating high-quality intermediate trajectories, particularly in math and symbolic domains. Inspired by this, we explore how MCTS-derived trajectories, traditionally used for training value or reward models, can be repurposed to improve policy optimization in preference-based reinforcement learning (RL). Specifically, we focus on Group Relative Policy Optimization (GRPO), a recent algorithm that enables preference-consistent policy learning without value networks. We propose a staged GRPO training paradigm where completions are derived from partially revealed MCTS rollouts, introducing a novel tree-structured setting for advantage estimation. This leads to a rich class of prefix-conditioned reward signals, which we analyze theoretically and empirically. Our initial results indicate that while structured advantage estimation can stabilize updates and better reflect compositional reasoning quality, challenges such as advantage saturation and reward signal collapse remain. We propose heuristic and statistical solutions to mitigate these issues and discuss open challenges for learning under staged or tree-like reward structures.

Ссылки и действия