CURE: Critical-Token-Guided Re-concatenation for Entropy-collapse Prevention

2508.11016v1 cs.LG, cs.AI 2025-08-19

Авторы:

Qingbin Li, Rongkun Xue, Jie Wang, Ming Zhou, Zhi Li, Xiaofeng Ji, Yongqi Wang, Miao Liu, Zheming Yang, Minghui Qiu, Jing Yang

Резюме на русском

## Контекст Одним из наиболее актуальных направлений в развитии ИИ является улучшение моделей языка с использованием усовершенствованных методов расширения знаний. Несмотря на прогресс в Reinforcement Learning with Verified Reward (RLVR), который позволил обученным моделям глубже рассуждать и принимать более социально значимые решения, зачастую наблюдается проблема "энтропийного распространения". Эта проблема возникает в силу реплицированных статических начальных состояний во время обучения, что приводит к снижению разнообразия ответов и сильному сужению диапазона возможных реакций модели. Эта проблема оказывает отрицательное влияние на продолжительность обучения и качество результатов. Данная статья фокусируется на развитии методологии, которая уменьшает эту проблему и повышает высокую степень энтропии в языковых моделях. ## Метод CURE представляет собой двухэтапный подход к решению проблемы снижения энтропии в локальных языковых моделях. В первой стадии используется метод регенерации критических токенов, нацеленный на стимулирование модели для поиска новых и значимых последовательностей с тем же уровнем контекстной когерентности. Это достигается за счет оптимизации как исходного, так и нового потока данных. Во второй стадии, для укрепления интерпретаций и повышения эксплуатации, вводится статическое начальное состояние с использованием метода DAPO. Это позволяет обеспечить более стабильный прирост производительности, сочетая в себе высокую энтропию и точность модели. ## Результаты В ходе экспериментов, проведенных на Qwen-2.5-Math-7B, CURE продемонстрировала значительный прогресс по сравнению с другими методами RLVR. Она достигла увеличения в 5% в шести математических задачах, что является состоянием лидера в области энтропии и точности. Эксперименты также подтвердили, что регенерация критических токенов способствует лучшей продолжительности обучения, сохраняя высокий уровень энтропии. Этот результат показывает, что CURE эффективно решает проблему снижения энтропии в языковых моделях, улучшая качество и глубину обучения. ## Значимость CURE может быть применена в различных тематиках обучения, включая математическое моделирование, прогностические задачи и другие области, где требуется высокая точность и разнообразие ответов. Эта методика позволяет устранить проблему снижения энтропии, повысить степень устойчивости модели и повысить ее качество работы в продолжительных сеансах обучения. Таким образом, CURE может стать ключевой компонентой в создании моделей языка с более высоким уровнем разума и более предсказуемой структурой результатов. ## Выводы Данное исследо

Abstract

Recent advances in Reinforcement Learning with Verified Reward (RLVR) have driven the emergence of more sophisticated cognitive behaviors in large language models (LLMs), thereby enhancing their reasoning capabilities. However, in prior RLVR pipelines, the repeated use of static initial-state sampling drawn exactly from the dataset distribution during each sampling phase produced overly deterministic, low diversity model behavior, which manifested as rapid entropy collapse and hindered sustained performance gains during prolonged training. To address this issue, we introduce CURE (Critical-token-gUided Re concatenation for Entropy-collapse prevention), a two-stage framework that balances exploration and exploitation. Specifically, in the first stage, to deliberately steer the model toward novel yet coherent contexts, we re-generate at high-entropy critical tokens and jointly optimize the original and the branched trajectories. The further comparison with vanilla DAPO shows that the regeneration process achieves a better performance on math reasoning tasks while sustaining a high-level entropy degree for exploration. In the second stage, we continue training with static initial-state sampling by DAPO, intentionally placing the model in a familiar state to gradually strengthen exploitation. Extensive experiments on Qwen-2.5-Math-7B show that, compared to other RLVR methods, CURE achieves a 5% performance gain across six math benchmarks, establishing state-of-the-art performance in both entropy and accuracy. A series of experiments further validate the effectiveness of our approach. Code is available at https://github.com/CURE-Project/CURE.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CURE: Critical-Token-Guided Re-concatenation for Entropy-collapse Prevention

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация