C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning

2509.23129v1 cs.LG, cs.AI, cs.CL 2025-10-01

Авторы:

Haotian Liu, Shuo Wang, Hongteng Xu

Резюме на русском

## Контекст Область исследования, связанная с reinforcement learning, становится все более актуальной в связи с попытками создания умных и самосознательных моделей решительности. Одной из основных проблем в этой области является предрасположенность моделей к перебору или, в противоположность этому, высокой ошибке в решении задач. Также существуют затруднения с подготовкой данных и зафиксированными токенами, которые могут влиять на точность моделей. Эти проблемы вызывают необходимость в разработке моделей, которые могут исправлять свои ошибки в процессе обучения и учитывать контекст во время выполнения. ## Метод Методология, предложенная в работе, основывается на новом подходе, называемом Group Sequence Policy Gradient (GSPG). Он состоит в том, что модель поддерживает набор последовательных решений и вычисляет доверительные показатели каждого решения с помощью секвенсовского штрафа. Таким образом, модель может выявлять и устранять свои ошибки с помощью этих корректировок. Для избежания слишком высокой доверительности, которая может привести к ошибкам, вводится дополнительный регуляризатор, который уменьшает риск переобучения. Архитектура включает механизмы, которые позволяют гибко корректировать модель в зависимости от сложности задачи. ## Результаты Для проверки метода предложенный подход был применен к различным задачам, включая логические и математические задачи. Результаты показали, что C$^2$GSPG превосходит другие методы по точности решения задач и калибровке доверия. Эксперименты были проведены на различных данных, включая корпусы логических задач и тесты математических умений. Эти результаты подтверждают, что модель не только улучшает точность, но и стремится к более уверенному и точному решению задач. ## Значимость Предложенный подход может быть применен в различных областях, таких как роботология, системы рекомендации и системы управления. Выгоды предложенного подхода заключаются в его универсальности и точности, что может существенно улучшить качество работы моделей в реальных условиях. Будущие исследования могут быть направлены на расширение применения C$^2$GSPG к более сложным задачам и интеграцию его с другими подходами в области машинного обучения. ## Выводы Метод C$^2$GSPG представляет собой прорыв в области самосознательного машинного обучения. Он успешно устраняет проблему ошибок в моделях и позволяет достичь высокой точности и уверенности в решении задач. Будущие работы будут направлены на расширение гибкости и эффективности этого подхода для дальнейшего улучшения моделей автоматизированного решения задач.

Abstract

Reinforcement Learning (RL) methods, exemplified by Group Relative Policy Optimization (GRPO) and its variants, play a central role in developing reasoning models. However, these methods often suffer from a critical overconfidence issue, which prevents them from achieving self-aware reasoning models. In this study, we propose a simple yet effective confidence-calibration group sequence policy gradient method, called C$^2$GSPG, which simultaneously enhances reasoning performance while suppressing overconfidence. In principle, we propose a Group Sequence Policy Gradient (GSPG) framework for learning reasoning models, which eliminates the token-level bias commonly appearing in GRPO and its variants. In this framework, we define the model confidence for each reasoning problem using the normalized sequence-level probability, and then apply a cross-entropy regularizer to calibrate the model confidence to the sequence's reward. We demonstrate that the confidence calibration regularizer and GSPG are collaborative for binary rewards, as their objectives always share the same gradient direction. For non-binary rewards, we apply nonlinear reward normalization and adaptive regularizer clipping, mitigating the potential conflict between the two objectives. Applying C$^2$GSPG to post-train large language models in logical and mathematical reasoning tasks, we show its superiority over state-of-the-art methods in both reasoning accuracy and confidence calibration. The code of C$^2$GSPG is available at https://github.com/HaotianLiu123/CCGSPG.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация