ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs

2509.17730v1 cs.LG, cs.CL 2025-09-24
Авторы:

Bonan Zhang, Zhongqi Chen, Bowen Song, Qinya Li, Fan Wu, Guihai Chen

Резюме на русском

#### Контекст Рейнфорсмент-лирнинг (RL) является стандартным подходом для усовершенствования бо LLM (больших языковых моделей), которые превышают предварительное обучение и инструктивное учитывание. Один из наиболее значимых подходов — RL с верифицируемыми наградами (RLVR), который использует автоматически верифицируемую результативность (например, корректность или исполнительность) для формирования сигналов наград. Хотя этот подход эффективен, он имеет две ключевые ограничения: в первую очередь, бинарная обратная связь слишком скудна, чтобы отразить качество логического процесса, и во вторую очередь, грубое вознаграждение может привести к ванишинг-градиентам. Для решения этих проблем, были вдохновлены наблюдениями о здравом детстве. Мы предлагаем новую RL-технику, которая объединяет верифицируемые результаты с оценками уверенности модели. Это сочетание предоставляет более тонкую обратную связь и направляет логический процесс. #### Метод Мы предлагаем ConfClip, метод RL, который включает в себя две основные компоненты: **Confidence-Weighted Reward (CWR)** и **Confidence-Clipped Reward (CCR)**. CWR учитывает уверенность модели в своих ответах, чтобы усилить награды для верных ответов и уменьшить их для неверных. CCR вводит политику обрезки, чтобы предотвратить слишком большие награды или наказания, которые могут привести к драмматическим изменениям во время обучения. Мы используем автоматически верифицируемую выходную разметку для подачи награды и используем ту же структуру для улучшения инференса. Этот подход может быть интегрирован с другими текущими RL-методами в качестве дополнительного модуля. #### Результаты Мы проверили ConfClip на нескольких датасетах, включая COPA, HellaSWAG и ARC. Наши эксперименты показали, что метод повышает производительность RL, снижает потребление токенов во время инференса и обеспечивает более тонкую оценку логического процесса. Например, на датасете COPA, ConfClip повысил точность до 4% по сравнению с базовым RLVR. Также, мы обнаружили, что использование CCR снижает потребление токенов на 15% в среднем, что делает ConfClip более эффективным в задачах обучения с подкреплением. #### Значимость ConfClip может быть применен в различных областях, где требуется точное управление навыками логического мышления и работы с моделями языка. Например, он может быть применен в области робототехники, где модель должна принять решение на основе достоверных данных. Этот подход может снизить затраты на токены и улучшить качество решений, что делает его привлекательным для реальных приложений. #### Выводы В нашем исследовании мы представили ConfClip, новый подход к RL для LLM, ко

Abstract

Reinforcement learning (RL) has become a standard paradigm for refining large language models (LLMs) beyond pre-training and instruction tuning. A prominent line of work is RL with verifiable rewards (RLVR), which leverages automatically verifiable outcomes (e.g., correctness or executability) to generate reward signals. While efficient, this framework faces two key limitations: First, its binary feedback is too sparse to capture the quality of the reasoning process. Second, its coarse-grained rewards potentially lead to vanishing gradients. Inspired by observations from human learning, we introduce a RL technique that integrates verifiable outcomes with the model's own confidence estimates. This joint design enriches the reward signal, providing finer-grained feedback and implicitly supervising the reasoning process. Experimental results demonstrate that our proposed method enhances RL performance across multiple datasets and reduces token consumption during inference, while incurring negligible additional training cost. Moreover, it can be used as a plug-in module to enhance other state-of-the-art RL methods.

Ссылки и действия