TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
2508.17445v1
cs.LG, cs.CL
2025-08-27
Авторы:
Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
Резюме на русском
## Контекст
В последние годы методы политической оптимизации (Policy Optimization, PO), основанные на теории игр, получили широкое распространение в области работы с большими языковыми моделями. Они позволяют эффективно решать задачи, требующие углубленного понимания языка. Несмотря на это, имеются значительные проблемы. Например, требование к дорогостоящим он-политическим роллаутам и ограниченной исследовательской ловкости приводят к высоким затратам на вычисления и неэффективности. Для решения этих проблем необходимо разработать методы, которые обеспечат оптимизацию и эффективность вывода в рамках требований к сложности и стоимости.
## Метод
Мы предлагаем TreePO, новый подход, который объединяет динамическое деревовые поисковые методы с декодированием по сегментам фиксированной длины. Этот подход построен на трёх ключевых компонентах. Во-первых, мы предлагаем сегментный алгоритм выбора, который уменьшает нагрузку на KV-кеш, работая с последовательностями, и позволяет сформировать новые ветви поиска с возможностью преждевременного останова. Во-вторых, мы вводим деревовое оценивание взвешенных анализов, которое учитывает как глобальные, так и локальные аспекты политической оптимизации. И наконец, мы анализируем эффективность пробного распространения и стратегии возврата на основе вероятности и качества.
## Результаты
Мы проводили эксперименты на нескольких наборах данных для оценки производительности и эффективности TreePO. Наши результаты показали, что данный подход уменьшает расходы на вычисления по сравнению с существующими методами. Например, использование TreePO приводит к сокращению издержек на обучение моделей от 22% до 43%. Благодаря эффективному использованию семантических сегментов и раннего останова ненужных разветвелений, TreePO позволяет улучшить качество решений и сократить трассировки.
## Значимость
Данный подход может быть применен в различных задачах, требующих глубокого обработки языка, таких как генерация текста, поиск решений и диагностика. Он обеспечивает более быструю и эффективную обработку запросов, особенно в сценариях с ограниченным вычислительным бюджетом. Также TreePO открывает путь к более сильной интеграции RL-подходов в обучение моделей, снижая общую стоимость и сложность.
## Выводы
Мы представили TreePO, новый подход к оптимизации политик, который эффективно сочетает динамическое деревовое поисковое моделирование с уменьшением расходов на вычисления. Этот подход показал свою эффективность в сравнении с другими подходами, а также открыл новые возможности для развития RL-подходов в обучении моделей.
Abstract
Recent advancements in aligning large language models via reinforcement
learning have achieved remarkable gains in solving complex reasoning problems,
but at the cost of expensive on-policy rollouts and limited exploration of
diverse reasoning paths. In this work, we introduce TreePO, involving a
self-guided rollout algorithm that views sequence generation as a
tree-structured searching process. Composed of dynamic tree sampling policy and
fixed-length segment decoding, TreePO leverages local uncertainty to warrant
additional branches. By amortizing computation across common prefixes and
pruning low-value paths early, TreePO essentially reduces the per-update
compute burden while preserving or enhancing exploration diversity. Key
contributions include: (1) a segment-wise sampling algorithm that alleviates
the KV cache burden through contiguous segments and spawns new branches along
with an early-stop mechanism; (2) a tree-based segment-level advantage
estimation that considers both global and local proximal policy optimization.
and (3) analysis on the effectiveness of probability and quality-driven dynamic
divergence and fallback strategy. We empirically validate the performance gain
of TreePO on a set reasoning benchmarks and the efficiency saving of GPU hours
from 22\% up to 43\% of the sampling design for the trained models, meanwhile
showing up to 40\% reduction at trajectory-level and 35\% at token-level
sampling compute for the existing models. While offering a free lunch of
inference efficiency, TreePO reveals a practical path toward scaling RL-based
post-training with fewer samples and less compute. Home page locates at
https://m-a-p.ai/TreePO.
Ссылки и действия
Дополнительные ресурсы: