CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

2509.09675v1 cs.CL, cs.AI, cs.LG 2025-09-13
Авторы:

Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

Резюме на русском

## Контекст Reinforcement Learning with Verifiable Rewards (RLVR) является мощным подходом для улучшения разума и реакции Large Language Models (LLMs). Однако, существующие RLVR-методы часто неэффективно исследуют различные ситуации, что приводит к преждевременному затуханию энтропии и статичности. Данная проблема является серьезной преградой для достижения высокой гибкости и разума в LLMs. Мы предлагаем Curiosity-Driven Exploration (CDE), новый подход, который использует особое чувство любопытства модели, чтобы направлять ее исследование. Это создает новый подход к эффективному использованию RLVR, устраняя проблему преждевременной затухании энтропии. ## Метод Предлагаемый CDE-подход основывается на двух сигналах для поддержки исследования: 1. **Актёрский сигнал**: основывается на perplexity (меры сложности текста) генерируемых ответов модели. Более высокая perplexity поощряет модель для поиска более разнообразных и интересных ответов. 2. **Критический сигнал**: основывается на variance (разбросе) значений в результатах с многоголосой архитектурой критика. Этот сигнал помогает модели находить более уверенные и разнообразные стратегии решения. Используя эти сигналы, CDE формализует любопытство как награду для исследования, улучшая RLVR-фреймворк. Мы также проводим теоретический анализ, показывающий, что актёрский сигнал помогает избегать ошибок с высокой уверенностью, а критический сигнал поддерживает разнообразие. ## Результаты Мы провели эксперименты на AIME-benchmark, используя GRPO/PPO-алгоритмы и стандартный RLVR. Результаты показали, что CDE повышает эффективность RLVR на приблизительно 3 балла, сокращая проблемы premature convergence и entropy collapse. Также, наши анализы выявили "collapse calibration mechanism" (механизм затухания калибровки), объясняющий основные сбои в работе LLMs. ## Значимость Предлагаемый подход может быть применён во многих областях, где требуется высокая гибкость и сообразительность, например в клиентском обслуживании, бизнес-анализе и трансляции. Он избавляет от значительных проблем RLVR, таких как premature convergence и entropy collapse. Благодаря CDE, модели могут более эффективно исследовать различные ситуации, что делает их более универсальными и полезными в реальных задачах. ## Выводы Мы предложили Curiosity-Driven Exploration (CDE), новую модель, которая повышает эффективность RLVR в LLMs. Этот подход помогает избежать проблем, связанных с преждевременным затуханием энтропии и ограниченностью разнообразия ответов. Наши результаты показывают, что CDE позволяет LLMs более эффективно исследовать и решать сложные задачи. В будущем мы планируем расширить эту модель для более ши

Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.

Ссылки и действия