ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding

2508.19576v1 cs.AI, cs.LG 2025-08-29

Авторы:

Sining Zhoubian, Dan Zhang, Yuxiao Dong, Jie Tang

Резюме на русском

## Контекст В современном мире, представители искусственного интеллекта становятся всё более важными в различных сферах, от роботов до систем автоматизации. Одной из кллючных задач в области машинного обучения является улучшение абстрактного рассуждения, которое становится все более важной задачей в становлении новых технологий. Одной из таких проблем является то, что существующие методы повышения уровня разума и улучшения логического мышления часто не достаточно эффективны в решении задач, которые требуют высокого уровня сложности. Таким образом, возникает необходимость разработки новых, более эффективных методов улучшения абстрактного рассуждения в искусственном интеллекте. ## Метод Методология, предлагаемая в работе, основывается на использовании усовершенствованного алгоритма GRPO (Reinforcement Learning with Guidance), а также на использовании модели важности вариантов ответов (Value Model, VM). Авторы предлагают оптимизированный GRPO, который увеличивает вознаграждение за правильные ответы, что позволяет улучшить показатели логического рассуждения. Также включена модель важности ответов, которая позволяет принимать решения на основе более точных значений, основываясь на значимости ответов в задаче. Также, авторы предлагают метод валидации на основе Monte Carlo Tree Search (MCTS), который позволяет решать задачи в течение мнгого времени, а также повышает точность решений. ## Результаты В ходе экспериментов были проверены различные модели, включая GRPO, ReST-DPO и PRM-BoN. Результаты показали, что предлагаемая процедура ReST-RL улучшает точность решения задач на бенчмарках, таких как APPS, BigCodeBench и HumanEval. Также было проведено сравнение с другими подходами к валидации, таким как PRM-BoN и ORM-MCTS. Результаты экспериментов показали, что ReST-RL превосходит другие подходы по многим показателям, включая точность и скорость рассуждений. ## Значимость Предлагаемый подход может быть применён в широком круге задач, включая контроль качества текста, развитие логического мышления, а также в области развития новых технологий. Благодаря улучшенному GRPO и модели важности ответов, ReST-RL может повысить эффективность и точность работы искусственного интеллекта. Эти достижения могут быть использованы в различных областях, от разработки новых систем взаимодействия с пользователем до улучшения компьютерных технологий в сфере обработки текста и решения комплексных задач. ## Выводы В итоге, ReST-RL достигает высокой точности решения задач, улучшая абстрактное рассуждение и логическое мышление в системах искусственного интеллекта. Будущие исследования будут сконцентрированы на рас

Abstract

With respect to improving the reasoning accuracy of LLMs, the representative reinforcement learning (RL) method GRPO faces failure due to insignificant reward variance, while verification methods based on process reward models (PRMs) suffer from difficulties with training data acquisition and verification effectiveness. To tackle these problems, this paper introduces ReST-RL, a unified LLM RL paradigm that significantly improves LLM's code reasoning ability by combining an improved GRPO algorithm with a meticulously designed test time decoding method assisted by a value model (VM). As the first stage of policy reinforcement, ReST-GRPO adopts an optimized ReST algorithm to filter and assemble high-value training data, increasing the reward variance of GRPO sampling, thus improving the effectiveness and efficiency of training. After the basic reasoning ability of LLM policy has been improved, we further propose a test time decoding optimization method called VM-MCTS. Through Monte-Carlo Tree Search (MCTS), we collect accurate value targets with no annotation required, on which VM training is based. When decoding, the VM is deployed by an adapted MCTS algorithm to provide precise process signals as well as verification scores, assisting the LLM policy to achieve high reasoning accuracy. We validate the effectiveness of the proposed RL paradigm through extensive experiments on coding problems. Upon comparison, our approach significantly outperforms other reinforcement training baselines (e.g., naive GRPO and ReST-DPO), as well as decoding and verification baselines (e.g., PRM-BoN and ORM-MCTS) on well-known coding benchmarks of various levels (e.g., APPS, BigCodeBench, and HumanEval), indicating its power to strengthen the reasoning ability of LLM policies. Codes for our project can be found at https://github.com/THUDM/ReST-RL.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

KANFormer for Predicting Fill Probabilities via Survival Analysis in Limit Order...

A Fast Anti-Jamming Cognitive Radar Deployment Algorithm Based on Reinforcement ...

The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics

Mathematical Framing for Different Agent Strategies

Sequential Enumeration in Large Language Models

Навигация