CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
2509.20712v1
cs.LG, cs.CL
2025-09-27
Авторы:
Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
Резюме на русском
## Контекст
Reinforcement learning (RL) широко используется для оптимизации крупных лингвистических моделей (LLMs) для решения сложных задач рассуждения. Одной из ключевых проблем в этой области является управление политикой энтропии, которая отражает баланс между исследованием и эксплуатацией во время обучения. Существующие методы, такие как proximal policy optimization (PPO) и его варианты, удаляют ценные сигналы градиентов от низковероятных токенов из-за механизма клиппинга. Однако эти токены играют важную роль в регулировании эволюции энтропии. Это наблюдение ставит перед исследователями задачу создания методов, которые учитывают эти сигналы и улучшают стабильность обучения.
## Метод
CE-GPPO (Controlling Entropy via Gradient-Preserving Clipping Policy Optimization) предлагает новую модель, которая решает проблему удаления градиентов из клиппингового интервала в PPO. Алгоритм CE-GPPO вводит градиенты от выброшенных токенов с помощью нового механизма градиентного защитного клиппинга. Этот подход позволяет вести оптимизацию с использованием этих токенов, но в ограниченной степени, чтобы не повлиять на стабильность обучения. CE-GPPO также вводит гибкий коэффициент, который регулирует масштаб градиентов, что дает возможность управлять энтропией в рамках требуемого диапазона. Теоретический анализ подтверждает, что этот подход эффективно регулирует энтропию и улучшает обучение.
## Результаты
Результаты экспериментов показывают, что CE-GPPO показывает значительные улучшения в сравнении с базовым PPO и другими методами в задачах математического рассуждения. В частности, CE-GPPO показывает лучший результат в обучении моделей разных размеров, а также улучшает стабильность обучения в задачах с высокой энтропией. Полученные результаты показывают, что CE-GPPO не только повышает эффективность, но и способствует более сбалансированному исследованию и эксплуатации во время обучения.
## Значимость
CE-GPPO может применяться в различных задачах, где требуется эффективное управление энтропией в RL. Он особенно полезен для моделей, которые работают с высокой энтропией и неоднозначными ситуациями. Этот подход позволяет достичь лучшего баланса между исследованием и эксплуатацией, что улучшает общую производительность. Будущие исследования могут сосредоточиться на расширении CE-GPPO для работы с более сложными задачами и интеграции с другими методами оптимизации.
## Выводы
CE-GPPO является современным алгоритмом для решения проблем энтропии в RL, особенно в задачах с LLMs. Он показывает существенные улучшения в сравнении с традиционными методами и демонстрирует широкое примен
Abstract
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose \textbf{C}ontrolling \textbf{E}ntropy via
\textbf{G}radient-\textbf{P}reserving \textbf{P}olicy \textbf{O}ptimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.
Ссылки и действия
Дополнительные ресурсы: