C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning
2509.23129v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Haotian Liu, Shuo Wang, Hongteng Xu
Резюме на русском
## Контекст
Область исследования, связанная с reinforcement learning, становится все более актуальной в связи с попытками создания умных и самосознательных моделей решительности. Одной из основных проблем в этой области является предрасположенность моделей к перебору или, в противоположность этому, высокой ошибке в решении задач. Также существуют затруднения с подготовкой данных и зафиксированными токенами, которые могут влиять на точность моделей. Эти проблемы вызывают необходимость в разработке моделей, которые могут исправлять свои ошибки в процессе обучения и учитывать контекст во время выполнения.
## Метод
Методология, предложенная в работе, основывается на новом подходе, называемом Group Sequence Policy Gradient (GSPG). Он состоит в том, что модель поддерживает набор последовательных решений и вычисляет доверительные показатели каждого решения с помощью секвенсовского штрафа. Таким образом, модель может выявлять и устранять свои ошибки с помощью этих корректировок. Для избежания слишком высокой доверительности, которая может привести к ошибкам, вводится дополнительный регуляризатор, который уменьшает риск переобучения. Архитектура включает механизмы, которые позволяют гибко корректировать модель в зависимости от сложности задачи.
## Результаты
Для проверки метода предложенный подход был применен к различным задачам, включая логические и математические задачи. Результаты показали, что C$^2$GSPG превосходит другие методы по точности решения задач и калибровке доверия. Эксперименты были проведены на различных данных, включая корпусы логических задач и тесты математических умений. Эти результаты подтверждают, что модель не только улучшает точность, но и стремится к более уверенному и точному решению задач.
## Значимость
Предложенный подход может быть применен в различных областях, таких как роботология, системы рекомендации и системы управления. Выгоды предложенного подхода заключаются в его универсальности и точности, что может существенно улучшить качество работы моделей в реальных условиях. Будущие исследования могут быть направлены на расширение применения C$^2$GSPG к более сложным задачам и интеграцию его с другими подходами в области машинного обучения.
## Выводы
Метод C$^2$GSPG представляет собой прорыв в области самосознательного машинного обучения. Он успешно устраняет проблему ошибок в моделях и позволяет достичь высокой точности и уверенности в решении задач. Будущие работы будут направлены на расширение гибкости и эффективности этого подхода для дальнейшего улучшения моделей автоматизированного решения задач.
Abstract
Reinforcement Learning (RL) methods, exemplified by Group Relative Policy
Optimization (GRPO) and its variants, play a central role in developing
reasoning models. However, these methods often suffer from a critical
overconfidence issue, which prevents them from achieving self-aware reasoning
models. In this study, we propose a simple yet effective confidence-calibration
group sequence policy gradient method, called C$^2$GSPG, which simultaneously
enhances reasoning performance while suppressing overconfidence. In principle,
we propose a Group Sequence Policy Gradient (GSPG) framework for learning
reasoning models, which eliminates the token-level bias commonly appearing in
GRPO and its variants. In this framework, we define the model confidence for
each reasoning problem using the normalized sequence-level probability, and
then apply a cross-entropy regularizer to calibrate the model confidence to the
sequence's reward. We demonstrate that the confidence calibration regularizer
and GSPG are collaborative for binary rewards, as their objectives always share
the same gradient direction. For non-binary rewards, we apply nonlinear reward
normalization and adaptive regularizer clipping, mitigating the potential
conflict between the two objectives. Applying C$^2$GSPG to post-train large
language models in logical and mathematical reasoning tasks, we show its
superiority over state-of-the-art methods in both reasoning accuracy and
confidence calibration. The code of C$^2$GSPG is available at
https://github.com/HaotianLiu123/CCGSPG.
Ссылки и действия
Дополнительные ресурсы: