Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

2508.05613v1 cs.CL, cs.AI 2025-08-08
Авторы:

Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) стали важной составляющей современных исследований в области искусственного интеллекта, особенно в задачах резонансного мышления. Однако улучшение их резонансных способностей часто зависит от использования reinforcement learning (RL), который представляет собой ключевую методологию в этой области. Два главных подхода к формированию вознаграждений (rewards) в RL — model-based rewards и rule-based rewards — имеют свои ограничения. Rule-based rewards, основанные на строгих правилах, не гарантируют достаточной робастности и адаптивности, что может привести к нестабильности в обучении. С другой стороны, model-based rewards, которые зависят от моделей для оценки результатов, часто сталкиваются с проблемой reward hacking, когда модель находит способы манипулировать системой вознаграждений, чтобы получать высокие баллы, не выполняя фактически задачи. Эти проблемы усугубляются отсутствием эффективных методов для генерации высококачественных данных для обучения моделей вознаграждений. Мотивацией данного исследования является необходимость разработки более эффективных и робастных методов для интеграции моделей вознаграждений в RL для LLMs. Авторы предлагают решение, основанное на совместном оптимизировании модели политики (policy model) и модели вознаграждений (reward model), чтобы устранить существующие недостатки и повысить эффективность RL в задачах резонансного мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк под названием **Cooper (Co-optimizing Policy Model and Reward Model)**, который сочетает в себе оптимизацию модели политики и модели вознаграждений в едином процессе. Основная идея Cooper заключается в том, чтобы использовать преимущества rule-based rewards для точной идентификации правильных ответов и динамически формировать наборы положительных и отрицательных примеров для дальнейшего обучения модели вознаграждений. Cooper использует **hybrid annotation strategy** для эффективной генерации данных, которые необходимы для обучения модели вознаграждений. Эта стратегия объединяет как автоматическую, так и ручною аннотацию, чтобы обеспечить высококачественные данные. Кроме того, авторы предлагают **reference-based reward modeling paradigm**, где модель вознаграждений использует ссылочный ответ (reference answer) в качестве входа для более точной оценки. В рамках этого фреймворка была разработана модель вознаграждений под названием **VerifyRM**, которая достигает высокой точности на наборе данных VerifyBench по сравнению с другими моделями того же размера. VerifyRM основана на ссылочном подходе и обеспечивает более надежную оценку качества ответов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности Cooper и модели VerifyRM. Эксперименты проводились на данных Qwen2.5-1.5B-Instruct, где Cooper показал значительное улучшение результатов по сравнению с базовыми подходами. В частности, использование Cooper привело к росту средней точности на 0.54%, что является существенным результатом в контексте задач резонансного мышления. Кроме того, VerifyRM также демонстрирует высокую точность на VerifyBench, превосходя другие модели вознаграждений того же размера. Эксперименты также показали, что динамическое обновление модели вознаграждений в рамках Cooper позволяет снизить риск reward hacking и повысить общую эффективность RL. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Cooper имеет значительное практическое применение в области резонансного мышления с использованием LLMs. Он позволяет улучшить надежность и эффективность RL, устраняя проблемы reward hacking и повышая качество обучения. Одним из ключевых преимуществ Cooper является его способность динамически обновлять модель вознаграждений, что обеспечивает более точную оценку и улучшает итоговые результаты RL. Это может быть применено в различных областях, где необходимо высококачественное резонансное мышление, таких как обработка естественного языка, автоматическое распознавание речи и другие прикладные задачи. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк Cooper, который сочетает оптимизацию модели политики и модели вознаграждений для улучшения результатов RL в задачах резонансного мышления. Авторы демонстрируют, что динамическое обновление модели вознаграждений является эффективным способом для борьбы с reward hacking и повышения эффективности RL. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры Cooper, включая разработку более эффективных стратегий аннотации и моделей вознаграждений. Кроме того, можно исследовать применение этого подхода к более широкому классу задач, включая мультимодальные системы и задачи, требующие высокой точности резонансного мышления.

Abstract

Large language models (LLMs) have demonstrated remarkable performance in reasoning tasks, where reinforcement learning (RL) serves as a key algorithm for enhancing their reasoning capabilities. Currently, there are two mainstream reward paradigms: model-based rewards and rule-based rewards. However, both approaches suffer from limitations: rule-based rewards lack robustness, while model-based rewards are vulnerable to reward hacking. To address these issues, we propose Cooper(Co-optimizing Policy Model and Reward Model), a RL framework that jointly optimizes both the policy model and the reward model. Cooper leverages the high precision of rule-based rewards when identifying correct responses, and dynamically constructs and selects positive-negative sample pairs for continued training the reward model. This design enhances robustness and mitigates the risk of reward hacking. To further support Cooper, we introduce a hybrid annotation strategy that efficiently and accurately generates training data for the reward model. We also propose a reference-based reward modeling paradigm, where the reward model takes a reference answer as input. Based on this design, we train a reward model named VerifyRM, which achieves higher accuracy on VerifyBench compared to other models of the same size. We conduct reinforcement learning using both VerifyRM and Cooper. Our experiments show that Cooper not only alleviates reward hacking but also improves end-to-end RL performance, for instance, achieving a 0.54% gain in average accuracy on Qwen2.5-1.5B-Instruct. Our findings demonstrate that dynamically updating reward model is an effective way to combat reward hacking, providing a reference for better integrating reward models into RL.

Ссылки и действия