Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
2509.24203v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
Резюме на русском
## Контекст
Off-policy reinforcement learning (RL) для больших языковых моделей (LLM) в последнее время привлек внимание вследствие практических ограничений в реальных приложениях, высокой сложности инфраструктуры LLM-RL и необходимости развития методологий RL. Несмотря на то, что классическая REINFORCE и ее современные модификации, такие как Group Relative Policy Optimization (GRPO), обычно рассматриваются как выбранные в методике on-policy, имеющие ограниченную устойчивость к off-policyness, текущая работа предлагает новую точку зрения. Мы предлагаем фундаментальное обоснование для GRPO без предпосылок о распределении тренировочных данных, показывая, что он естественно поддается off-policy интерпретации. Этот новый взгляд позволяет разработать общие принципы для адаптации REINFORCE к off-policy задачам: регуляризацию обновлений политики и активное управление распределением данных. Мы также предлагаем теоретическое обоснование некоторых используемых алгоритмами стратегий влияния распределения данных, которые ранее считались тривиальными.
## Метод
Мы предлагаем новую теоретическую модель для группного обновления REINFORCE, позволяющую его адаптировать к off-policy задачам. Наша модель основывается на первоосновных уравнениях RL, которые позволяют свести GRPO к политике-объекту. Мы развиваем модель с учетом того, чтобы обеспечить корректное управление распределением тренировочных данных и использование регуляризации, чтобы повысить стабильность обучения. Мы также рассматриваем два алгоритма, Online Policy Mirror Descent (OPMD) и Asymmetric REINFORCE (AsymRE), и показываем, что они могут быть репрезентованы как формы GRPO с уточненными регуляризаторами и стратегиями влияния данных.
## Результаты
Мы провели эксперименты на нескольких задачах RL с языковыми моделями, включая задачу сбора предложений на тему "Когда я был маленьким" и задачу сбора рецептов. Мы сравнили GRPO с существующими методами, включая OPMD и AsymRE, а также с классическими on-policy методами. Наши результаты показывают, что GRPO не только совместим с off-policy данными, но и показывает высокую стабильность и эффективность, превосходя другие методы в задачах с ограниченным объемом данных и сложностью инфраструктуры. Мы также проверили эффективность наших регуляризационных алгоритмов и стратегий влияния данных.
## Значимость
Наша работа имеет значительное значение для RL в LLMs в следующих аспектах:
1. Она развивает новые теоретические основы для GRPO, позволяющие использовать его в off-policy задачах.
2. Мы демонстрируем, что GRPO может значительно улучшить эффективность в задачах с ограниченными данными и сложной инфраструктурой.
3. Наши результаты имеют применение в раз
Abstract
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
Ссылки и действия
Дополнительные ресурсы: