CURE: Critical-Token-Guided Re-concatenation for Entropy-collapse Prevention
2508.11016v1
cs.LG, cs.AI
2025-08-19
Авторы:
Qingbin Li, Rongkun Xue, Jie Wang, Ming Zhou, Zhi Li, Xiaofeng Ji, Yongqi Wang, Miao Liu, Zheming Yang, Minghui Qiu, Jing Yang
Резюме на русском
## Контекст
Одним из наиболее актуальных направлений в развитии ИИ является улучшение моделей языка с использованием усовершенствованных методов расширения знаний. Несмотря на прогресс в Reinforcement Learning with Verified Reward (RLVR), который позволил обученным моделям глубже рассуждать и принимать более социально значимые решения, зачастую наблюдается проблема "энтропийного распространения". Эта проблема возникает в силу реплицированных статических начальных состояний во время обучения, что приводит к снижению разнообразия ответов и сильному сужению диапазона возможных реакций модели. Эта проблема оказывает отрицательное влияние на продолжительность обучения и качество результатов. Данная статья фокусируется на развитии методологии, которая уменьшает эту проблему и повышает высокую степень энтропии в языковых моделях.
## Метод
CURE представляет собой двухэтапный подход к решению проблемы снижения энтропии в локальных языковых моделях. В первой стадии используется метод регенерации критических токенов, нацеленный на стимулирование модели для поиска новых и значимых последовательностей с тем же уровнем контекстной когерентности. Это достигается за счет оптимизации как исходного, так и нового потока данных. Во второй стадии, для укрепления интерпретаций и повышения эксплуатации, вводится статическое начальное состояние с использованием метода DAPO. Это позволяет обеспечить более стабильный прирост производительности, сочетая в себе высокую энтропию и точность модели.
## Результаты
В ходе экспериментов, проведенных на Qwen-2.5-Math-7B, CURE продемонстрировала значительный прогресс по сравнению с другими методами RLVR. Она достигла увеличения в 5% в шести математических задачах, что является состоянием лидера в области энтропии и точности. Эксперименты также подтвердили, что регенерация критических токенов способствует лучшей продолжительности обучения, сохраняя высокий уровень энтропии. Этот результат показывает, что CURE эффективно решает проблему снижения энтропии в языковых моделях, улучшая качество и глубину обучения.
## Значимость
CURE может быть применена в различных тематиках обучения, включая математическое моделирование, прогностические задачи и другие области, где требуется высокая точность и разнообразие ответов. Эта методика позволяет устранить проблему снижения энтропии, повысить степень устойчивости модели и повысить ее качество работы в продолжительных сеансах обучения. Таким образом, CURE может стать ключевой компонентой в создании моделей языка с более высоким уровнем разума и более предсказуемой структурой результатов.
## Выводы
Данное исследо
Abstract
Recent advances in Reinforcement Learning with Verified Reward (RLVR) have
driven the emergence of more sophisticated cognitive behaviors in large
language models (LLMs), thereby enhancing their reasoning capabilities.
However, in prior RLVR pipelines, the repeated use of static initial-state
sampling drawn exactly from the dataset distribution during each sampling phase
produced overly deterministic, low diversity model behavior, which manifested
as rapid entropy collapse and hindered sustained performance gains during
prolonged training. To address this issue, we introduce CURE
(Critical-token-gUided Re concatenation for Entropy-collapse prevention), a
two-stage framework that balances exploration and exploitation. Specifically,
in the first stage, to deliberately steer the model toward novel yet coherent
contexts, we re-generate at high-entropy critical tokens and jointly optimize
the original and the branched trajectories. The further comparison with vanilla
DAPO shows that the regeneration process achieves a better performance on math
reasoning tasks while sustaining a high-level entropy degree for exploration.
In the second stage, we continue training with static initial-state sampling by
DAPO, intentionally placing the model in a familiar state to gradually
strengthen exploitation. Extensive experiments on Qwen-2.5-Math-7B show that,
compared to other RLVR methods, CURE achieves a 5% performance gain across six
math benchmarks, establishing state-of-the-art performance in both entropy and
accuracy. A series of experiments further validate the effectiveness of our
approach. Code is available at https://github.com/CURE-Project/CURE.
Ссылки и действия
Дополнительные ресурсы: