TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

2508.17445v1 cs.LG, cs.CL 2025-08-27
Авторы:

Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang

Резюме на русском

## Контекст В последние годы методы политической оптимизации (Policy Optimization, PO), основанные на теории игр, получили широкое распространение в области работы с большими языковыми моделями. Они позволяют эффективно решать задачи, требующие углубленного понимания языка. Несмотря на это, имеются значительные проблемы. Например, требование к дорогостоящим он-политическим роллаутам и ограниченной исследовательской ловкости приводят к высоким затратам на вычисления и неэффективности. Для решения этих проблем необходимо разработать методы, которые обеспечат оптимизацию и эффективность вывода в рамках требований к сложности и стоимости. ## Метод Мы предлагаем TreePO, новый подход, который объединяет динамическое деревовые поисковые методы с декодированием по сегментам фиксированной длины. Этот подход построен на трёх ключевых компонентах. Во-первых, мы предлагаем сегментный алгоритм выбора, который уменьшает нагрузку на KV-кеш, работая с последовательностями, и позволяет сформировать новые ветви поиска с возможностью преждевременного останова. Во-вторых, мы вводим деревовое оценивание взвешенных анализов, которое учитывает как глобальные, так и локальные аспекты политической оптимизации. И наконец, мы анализируем эффективность пробного распространения и стратегии возврата на основе вероятности и качества. ## Результаты Мы проводили эксперименты на нескольких наборах данных для оценки производительности и эффективности TreePO. Наши результаты показали, что данный подход уменьшает расходы на вычисления по сравнению с существующими методами. Например, использование TreePO приводит к сокращению издержек на обучение моделей от 22% до 43%. Благодаря эффективному использованию семантических сегментов и раннего останова ненужных разветвелений, TreePO позволяет улучшить качество решений и сократить трассировки. ## Значимость Данный подход может быть применен в различных задачах, требующих глубокого обработки языка, таких как генерация текста, поиск решений и диагностика. Он обеспечивает более быструю и эффективную обработку запросов, особенно в сценариях с ограниченным вычислительным бюджетом. Также TreePO открывает путь к более сильной интеграции RL-подходов в обучение моделей, снижая общую стоимость и сложность. ## Выводы Мы представили TreePO, новый подход к оптимизации политик, который эффективно сочетает динамическое деревовое поисковое моделирование с уменьшением расходов на вычисления. Этот подход показал свою эффективность в сравнении с другими подходами, а также открыл новые возможности для развития RL-подходов в обучении моделей.

Abstract

Recent advancements in aligning large language models via reinforcement learning have achieved remarkable gains in solving complex reasoning problems, but at the cost of expensive on-policy rollouts and limited exploration of diverse reasoning paths. In this work, we introduce TreePO, involving a self-guided rollout algorithm that views sequence generation as a tree-structured searching process. Composed of dynamic tree sampling policy and fixed-length segment decoding, TreePO leverages local uncertainty to warrant additional branches. By amortizing computation across common prefixes and pruning low-value paths early, TreePO essentially reduces the per-update compute burden while preserving or enhancing exploration diversity. Key contributions include: (1) a segment-wise sampling algorithm that alleviates the KV cache burden through contiguous segments and spawns new branches along with an early-stop mechanism; (2) a tree-based segment-level advantage estimation that considers both global and local proximal policy optimization. and (3) analysis on the effectiveness of probability and quality-driven dynamic divergence and fallback strategy. We empirically validate the performance gain of TreePO on a set reasoning benchmarks and the efficiency saving of GPU hours from 22\% up to 43\% of the sampling design for the trained models, meanwhile showing up to 40\% reduction at trajectory-level and 35\% at token-level sampling compute for the existing models. While offering a free lunch of inference efficiency, TreePO reveals a practical path toward scaling RL-based post-training with fewer samples and less compute. Home page locates at https://m-a-p.ai/TreePO.

Ссылки и действия