CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

2509.20712v1 cs.LG, cs.CL 2025-09-27

Авторы:

Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

Резюме на русском

## Контекст Reinforcement learning (RL) широко используется для оптимизации крупных лингвистических моделей (LLMs) для решения сложных задач рассуждения. Одной из ключевых проблем в этой области является управление политикой энтропии, которая отражает баланс между исследованием и эксплуатацией во время обучения. Существующие методы, такие как proximal policy optimization (PPO) и его варианты, удаляют ценные сигналы градиентов от низковероятных токенов из-за механизма клиппинга. Однако эти токены играют важную роль в регулировании эволюции энтропии. Это наблюдение ставит перед исследователями задачу создания методов, которые учитывают эти сигналы и улучшают стабильность обучения. ## Метод CE-GPPO (Controlling Entropy via Gradient-Preserving Clipping Policy Optimization) предлагает новую модель, которая решает проблему удаления градиентов из клиппингового интервала в PPO. Алгоритм CE-GPPO вводит градиенты от выброшенных токенов с помощью нового механизма градиентного защитного клиппинга. Этот подход позволяет вести оптимизацию с использованием этих токенов, но в ограниченной степени, чтобы не повлиять на стабильность обучения. CE-GPPO также вводит гибкий коэффициент, который регулирует масштаб градиентов, что дает возможность управлять энтропией в рамках требуемого диапазона. Теоретический анализ подтверждает, что этот подход эффективно регулирует энтропию и улучшает обучение. ## Результаты Результаты экспериментов показывают, что CE-GPPO показывает значительные улучшения в сравнении с базовым PPO и другими методами в задачах математического рассуждения. В частности, CE-GPPO показывает лучший результат в обучении моделей разных размеров, а также улучшает стабильность обучения в задачах с высокой энтропией. Полученные результаты показывают, что CE-GPPO не только повышает эффективность, но и способствует более сбалансированному исследованию и эксплуатации во время обучения. ## Значимость CE-GPPO может применяться в различных задачах, где требуется эффективное управление энтропией в RL. Он особенно полезен для моделей, которые работают с высокой энтропией и неоднозначными ситуациями. Этот подход позволяет достичь лучшего баланса между исследованием и эксплуатацией, что улучшает общую производительность. Будущие исследования могут сосредоточиться на расширении CE-GPPO для работы с более сложными задачами и интеграции с другими методами оптимизации. ## Выводы CE-GPPO является современным алгоритмом для решения проблем энтропии в RL, особенно в задачах с LLMs. Он показывает существенные улучшения в сравнении с традиционными методами и демонстрирует широкое примен

Abstract

Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose \textbf{C}ontrolling \textbf{E}ntropy via \textbf{G}radient-\textbf{P}reserving \textbf{P}olicy \textbf{O}ptimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация