Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

2509.02522v1 cs.CL, cs.LG 2025-09-05
Авторы:

Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang

Резюме на русском

## Контекст Reinforcement Learning with Verifiable Rewards (RLVR) является важной методологией, позволяющей обучить модели на основе верифицируемых выходных данных. Она применяется для решения задач, требующих высокого уровня логического и математического разума, таких как программирование и математическое моделирование. Несмотря на свои преимущества, RLVR сталкивается с многочисленными проблемами, включая спарсительные сигналы награды и неустойчивые обновления политики. Эти проблемы становятся особенно заметны при использовании RL-алгоритмов. Мы предлагаем новый подход, PACS, который адресует эти проблемы с помощью инновационной архитектуры и методологии. ## Метод PACS, или Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR, предлагает новую методологию, в которой награда получена на выходе трансформации лингвистического контекста представляется как метка для супервизированного обучения. Это позволяет перевести задачу RLVR в задачу кросс-энтропийного супервизированного обучения. Мы используем свертку супервизора и политики, чтобы улучшить процесс обучения и сделать его более устойчивым. Градиентный анализ показывает, что этот подход не только приводит к более стабильной политике, но и комбинирует роль актера и критика в единое целое, что повышает эффективность. ## Результаты Мы проверили PACS на задачах математического моделирования, включая AIME 2025. Наши результаты показывают, что PACS превосходит существующие методы, такие как PPO и GRPO, на 13.32 и 14.36 процентных единиц соответственно. Он показывает значительные улучшения в счете pass@256, достигший 59.78%. Этот результат доказывает устойчивость и эффективность нашего подхода, даже при сложных задачах. ## Значимость PACS может быть применен в различных областях, где требуется высокая точность и верификация результатов. Он имеет преимущества перед существующими RLVR-методами, такими как устойчивость и эффективность обучения. Мы видим потенциал PACS в развитии глубокого обучения с помощью наград, гарантирующих верификацию решений. Это может привести к новым возможностям в логическом моделировании и программировании. ## Выводы Мы предлагаем PACS, новую модель, которая использует супервизированное обучение для точной политики RLVR. Этот подход не только улучшает процесс обучения, но и обогащает функциональные возможности модели в сфере верифицируемых наград. Наши результаты показывают, что PACS является эффективным инструментом для решения сложных математических задач. Мы планируем продолжить развитие этого подхода, ориентируясь на улучшение его точности и расширение его применений.

Abstract

Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose $\textbf{PACS}$, a novel RLVR framework that achieves im$\textbf{P}$licit $\textbf{A}$ctor $\textbf{C}$ritic coupling via a $\textbf{S}$upervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.

Ссылки и действия