ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding
2508.19576v1
cs.AI, cs.LG
2025-08-29
Авторы:
Sining Zhoubian, Dan Zhang, Yuxiao Dong, Jie Tang
Резюме на русском
## Контекст
В современном мире, представители искусственного интеллекта становятся всё более важными в различных сферах, от роботов до систем автоматизации. Одной из кллючных задач в области машинного обучения является улучшение абстрактного рассуждения, которое становится все более важной задачей в становлении новых технологий. Одной из таких проблем является то, что существующие методы повышения уровня разума и улучшения логического мышления часто не достаточно эффективны в решении задач, которые требуют высокого уровня сложности. Таким образом, возникает необходимость разработки новых, более эффективных методов улучшения абстрактного рассуждения в искусственном интеллекте.
## Метод
Методология, предлагаемая в работе, основывается на использовании усовершенствованного алгоритма GRPO (Reinforcement Learning with Guidance), а также на использовании модели важности вариантов ответов (Value Model, VM). Авторы предлагают оптимизированный GRPO, который увеличивает вознаграждение за правильные ответы, что позволяет улучшить показатели логического рассуждения. Также включена модель важности ответов, которая позволяет принимать решения на основе более точных значений, основываясь на значимости ответов в задаче. Также, авторы предлагают метод валидации на основе Monte Carlo Tree Search (MCTS), который позволяет решать задачи в течение мнгого времени, а также повышает точность решений.
## Результаты
В ходе экспериментов были проверены различные модели, включая GRPO, ReST-DPO и PRM-BoN. Результаты показали, что предлагаемая процедура ReST-RL улучшает точность решения задач на бенчмарках, таких как APPS, BigCodeBench и HumanEval. Также было проведено сравнение с другими подходами к валидации, таким как PRM-BoN и ORM-MCTS. Результаты экспериментов показали, что ReST-RL превосходит другие подходы по многим показателям, включая точность и скорость рассуждений.
## Значимость
Предлагаемый подход может быть применён в широком круге задач, включая контроль качества текста, развитие логического мышления, а также в области развития новых технологий. Благодаря улучшенному GRPO и модели важности ответов, ReST-RL может повысить эффективность и точность работы искусственного интеллекта. Эти достижения могут быть использованы в различных областях, от разработки новых систем взаимодействия с пользователем до улучшения компьютерных технологий в сфере обработки текста и решения комплексных задач.
## Выводы
В итоге, ReST-RL достигает высокой точности решения задач, улучшая абстрактное рассуждение и логическое мышление в системах искусственного интеллекта. Будущие исследования будут сконцентрированы на рас
Abstract
With respect to improving the reasoning accuracy of LLMs, the representative
reinforcement learning (RL) method GRPO faces failure due to insignificant
reward variance, while verification methods based on process reward models
(PRMs) suffer from difficulties with training data acquisition and verification
effectiveness. To tackle these problems, this paper introduces ReST-RL, a
unified LLM RL paradigm that significantly improves LLM's code reasoning
ability by combining an improved GRPO algorithm with a meticulously designed
test time decoding method assisted by a value model (VM). As the first stage of
policy reinforcement, ReST-GRPO adopts an optimized ReST algorithm to filter
and assemble high-value training data, increasing the reward variance of GRPO
sampling, thus improving the effectiveness and efficiency of training. After
the basic reasoning ability of LLM policy has been improved, we further propose
a test time decoding optimization method called VM-MCTS. Through Monte-Carlo
Tree Search (MCTS), we collect accurate value targets with no annotation
required, on which VM training is based. When decoding, the VM is deployed by
an adapted MCTS algorithm to provide precise process signals as well as
verification scores, assisting the LLM policy to achieve high reasoning
accuracy. We validate the effectiveness of the proposed RL paradigm through
extensive experiments on coding problems. Upon comparison, our approach
significantly outperforms other reinforcement training baselines (e.g., naive
GRPO and ReST-DPO), as well as decoding and verification baselines (e.g.,
PRM-BoN and ORM-MCTS) on well-known coding benchmarks of various levels (e.g.,
APPS, BigCodeBench, and HumanEval), indicating its power to strengthen the
reasoning ability of LLM policies. Codes for our project can be found at
https://github.com/THUDM/ReST-RL.
Ссылки и действия
Дополнительные ресурсы: