#### Контекст
Рейнфорсмент-лирнинг (RL) является стандартным подходом для усовершенствования бо LLM (больших языковых моделей), которые превышают предварительное обучение и инструктивное учитывание. Один из наиболее значимых подходов — RL с верифицируемыми наградами (RLVR), который использует автоматически верифицируемую результативность (например, корректность или исполнительность) для формирования сигналов наград. Хотя этот подход эффективен, он имеет две ключевые ограничения: в первую очередь, бинарная обратная связь слишком скудна, чтобы отразить качество логического процесса, и во вторую очередь, грубое вознаграждение может привести к ванишинг-градиентам. Для решения этих проблем, были вдохновлены наблюдениями о здравом детстве. Мы предлагаем новую RL-технику, которая объединяет верифицируемые результаты с оценками уверенности модели. Это сочетание предоставляет более тонкую обратную связь и направляет логический процесс.
#### Метод
Мы предлагаем ConfClip, метод RL, который включает в себя две основные компоненты: **Confidence-Weighted Reward (CWR)** и **Confidence-Clipped Reward (CCR)**. CWR учитывает уверенность модели в своих ответах, чтобы усилить награды для верных ответов и уменьшить их для неверных. CCR вводит политику обрезки, чтобы предотвратить слишком большие награды или наказания, которые могут привести к драмматическим изменениям во время обучения. Мы используем автоматически верифицируемую выходную разметку для подачи награды и используем ту же структуру для улучшения инференса. Этот подход может быть интегрирован с другими текущими RL-методами в качестве дополнительного модуля.
#### Результаты
Мы проверили ConfClip на нескольких датасетах, включая COPA, HellaSWAG и ARC. Наши эксперименты показали, что метод повышает производительность RL, снижает потребление токенов во время инференса и обеспечивает более тонкую оценку логического процесса. Например, на датасете COPA, ConfClip повысил точность до 4% по сравнению с базовым RLVR. Также, мы обнаружили, что использование CCR снижает потребление токенов на 15% в среднем, что делает ConfClip более эффективным в задачах обучения с подкреплением.
#### Значимость
ConfClip может быть применен в различных областях, где требуется точное управление навыками логического мышления и работы с моделями языка. Например, он может быть применен в области робототехники, где модель должна принять решение на основе достоверных данных. Этот подход может снизить затраты на токены и улучшить качество решений, что делает его привлекательным для реальных приложений.
#### Выводы
В нашем исследовании мы представили ConfClip, новый подход к RL для LLM, ко