DCPO: Dynamic Clipping Policy Optimization
2509.02333v1
cs.CL, cs.AI, cs.LG
2025-09-05
Авторы:
Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin
Резюме на русском
#### Контекст
Reinforcement Learning from Verifiable Rewards (RLVR) является продвинутым подходом для улучшения логических возможностей больших языковых моделей. Однако существующие методы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов, что связано с фиксированными граничными значениями для падающих правдоподобий токенов и стандартизацией одинаковых наград. Эти факторы приводят к неэффективным обновлениям градиента и недостатку использования произведенных ответов. Данные ограничения становятся причиной неэффективного использования полученных данных в процессе обучения.
#### Метод
Чтобы устранить эти проблемы, в DCPO (Dynamic Clipping Policy Optimization) предложена динамическая стратегия урезания, которая адаптивно изменяет границы урезания для падающих правдоподобий токенов в зависимости от их предварительных индивидуальных вероятностей. Это позволяет увеличить границы для токенов с низкой вероятностью, чтобы повысить их эксплореризацию, и уменьшить для токенов с высокой вероятностью, чтобы избежать лишнего урезания. Также в DCPO введена техника сглаживания для стандартизации наград, которая объединяет информацию об ответах за весь тренировочный процесс. Это улучшает уровень эффективности использования ответов в ходе обучения.
#### Результаты
Данный подход был проверен на четырёх реальных бенчмарках с использованием трёх разных языковых моделей (Qwen2.5-Math-7B, Qwen2.5-14B). DCPO показал значительное улучшение производительности по сравнению с GRPO и DAPO. На AIME24 он достиг значений Avg@1 (46.7) и Avg@32 (38.8), превосходя GRPO (36.7/31.6) и DAPO (36.7/32.1). На бенчмарке AIME25 DCPO создал рекорды (23.3/19.0), превосходя GRPO (13.3/10.5) и DAPO (20.0/15.3). Была также заметна снижение количества нулевых наград на 28% по сравнению с GRPO и увеличение эффективности обучения в два раза по сравнению с DAPO.
#### Значимость
DCPO доказывает свою ценность в области больших моделей языкового моделирования, в частности в RLVR. Он эффективно использует данные, полученные от моделей, уменьшает число нулевых наград и увеличивает обучаемую стабильность. Это приводит к более эффективным выводам, улучшению качества ответов и увеличению общей эффективности обучения.
#### Выводы
DCPO демонстрирует новый этап в развитии RLVR, позволяя большим моделям языкового моделирования улучшить свою логическую структуру и эффективность. Основным направлением будущих исследований является дополнительное улучшение динамической стратегии урезания и её применение в различных областях, включая контекстные моделирования и по
Abstract
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
promising framework for enhancing the reasoning capabilities of large language
models. However, existing approaches such as GRPO often suffer from zero
gradients. This problem arises primarily due to fixed clipping bounds for
token-level probability ratios and the standardization of identical rewards,
which can lead to ineffective gradient updates and underutilization of
generated responses. In this work, we propose Dynamic Clipping Policy
Optimization (DCPO), which introduces a dynamic clipping strategy that
adaptively adjusts the clipping bounds based on token-specific prior
probabilities to enhance token-level exploration, and a smooth advantage
standardization technique that standardizes rewards across cumulative training
steps to improve the response-level effective utilization of generated
responses. DCPO achieved state-of-the-art performance on four benchmarks based
on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under
greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24
benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the
Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO
achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO
(20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the
nonzero advantage over GRPO in four models, doubled the training efficiency
over DAPO, and significantly reduced the token clipping ratio by an order of
magnitude compared to both GRPO and DAPO, while achieving superior performance.
These results highlight DCPO's effectiveness in leveraging generated data more
efficiently for reinforcement learning in large language models.
Ссылки и действия
Дополнительные ресурсы: