Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
2509.02522v1
cs.CL, cs.LG
2025-09-05
Авторы:
Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
Резюме на русском
## Контекст
Reinforcement Learning with Verifiable Rewards (RLVR) является важной методологией, позволяющей обучить модели на основе верифицируемых выходных данных. Она применяется для решения задач, требующих высокого уровня логического и математического разума, таких как программирование и математическое моделирование. Несмотря на свои преимущества, RLVR сталкивается с многочисленными проблемами, включая спарсительные сигналы награды и неустойчивые обновления политики. Эти проблемы становятся особенно заметны при использовании RL-алгоритмов. Мы предлагаем новый подход, PACS, который адресует эти проблемы с помощью инновационной архитектуры и методологии.
## Метод
PACS, или Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR, предлагает новую методологию, в которой награда получена на выходе трансформации лингвистического контекста представляется как метка для супервизированного обучения. Это позволяет перевести задачу RLVR в задачу кросс-энтропийного супервизированного обучения. Мы используем свертку супервизора и политики, чтобы улучшить процесс обучения и сделать его более устойчивым. Градиентный анализ показывает, что этот подход не только приводит к более стабильной политике, но и комбинирует роль актера и критика в единое целое, что повышает эффективность.
## Результаты
Мы проверили PACS на задачах математического моделирования, включая AIME 2025. Наши результаты показывают, что PACS превосходит существующие методы, такие как PPO и GRPO, на 13.32 и 14.36 процентных единиц соответственно. Он показывает значительные улучшения в счете pass@256, достигший 59.78%. Этот результат доказывает устойчивость и эффективность нашего подхода, даже при сложных задачах.
## Значимость
PACS может быть применен в различных областях, где требуется высокая точность и верификация результатов. Он имеет преимущества перед существующими RLVR-методами, такими как устойчивость и эффективность обучения. Мы видим потенциал PACS в развитии глубокого обучения с помощью наград, гарантирующих верификацию решений. Это может привести к новым возможностям в логическом моделировании и программировании.
## Выводы
Мы предлагаем PACS, новую модель, которая использует супервизированное обучение для точной политики RLVR. Этот подход не только улучшает процесс обучения, но и обогащает функциональные возможности модели в сфере верифицируемых наград. Наши результаты показывают, что PACS является эффективным инструментом для решения сложных математических задач. Мы планируем продолжить развитие этого подхода, ориентируясь на улучшение его точности и расширение его применений.
Abstract
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have
empowered large language models (LLMs) to tackle challenging reasoning tasks
such as mathematics and programming. RLVR leverages verifiable outcome rewards
to guide policy optimization, enabling LLMs to progressively improve output
quality in a grounded and reliable manner. Despite its promise, the RLVR
paradigm poses significant challenges, as existing methods often suffer from
sparse reward signals and unstable policy gradient updates, particularly in
RL-based approaches. To address the challenges, we propose $\textbf{PACS}$, a
novel RLVR framework that achieves im$\textbf{P}$licit $\textbf{A}$ctor
$\textbf{C}$ritic coupling via a $\textbf{S}$upervised learning framework. By
treating the outcome reward as a predictable label, we reformulate the RLVR
problem into a supervised learning task over a score function parameterized by
the policy model and optimized using cross-entropy loss. A detailed gradient
analysis shows that this supervised formulation inherently recovers the
classical policy gradient update while implicitly coupling actor and critic
roles, yielding more stable and efficient training. Benchmarking on challenging
mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as
PPO and GRPO, achieving superior reasoning performance. For instance, PACS
achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32
and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a
promising avenue for LLMs post-training with verifiable rewards. Our code and
data are available as open source at https://github.com/ritzz-ai/PACS.
Ссылки и действия
Дополнительные ресурсы: