GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning
2509.02492v1
cs.CL, cs.LG
2025-09-05
Авторы:
Chenglong Wang, Yongyu Mu, Hang Zhou, Yifu Huo, Ziming Zhu, Jiali Zeng, Murun Yang, Bei Li, Tong Xiao, Xiaoyang Hao, Chunliang Zhang, Fandong Meng, Jingbo Zhu
Резюме на русском
#### Контекст
Гармоничное обучение моделей на основе наград (reward modeling) является ключевым заданием в области искусственного интеллекта, особенно в рамках машинного обучения с подкреплением (reinforcement learning). Однако, существующие подходы сужаются только к определенным типам задач, чрезвычайно зависят от больших объемов руководственной данной (labeled data) и не включают в себя явный логический мотив для принятия решений модели. Это ограничивает их применение в условиях, где необходимо широкое и универсальное применение. Из-за этого, целью нынешнего исследования является развитие модели, которая не только может оценивать награды, но и способна логически обосновывать свои решения.
#### Метод
Мы предлагаем самоучительный (self-training) подход, который использует неразмеченные данные для создания модели с объясняемым резонансом в моделировании наград. Главной идеей является использование автокодировщиков для выделения фундаментальных причин модели для своих принятых решений. Мы представляем **GRAM-R$^2$**, модель, которая не только генерирует ответы, но и сопутствующие им логические объяснения. Модель обучается с использование неразмеченных данных для возможности исследования наград, и в дальнейшем может быть использована для различных задач, включая оценку ответов, адаптацию к задачам и улучшение моделей основанных на подкреплении.
#### Результаты
В ходе экспериментов мы применяли GRAM-R$^2$ к задачам, таким как оценка ответов, адаптация моделей и обучение с подкреплением с использованием руководства от людей. Модель показала высокую точность и логическую целостность в своих ответах. Она показала себя лучше, чем несколько дискриминативных и генеративных моделей, установив новый стандарт в области моделей наград. Эксперименты также подтвердили гибкость модели, которая может быть применена к различным задачам с минимальным или никаким тренировочным вкладом.
#### Значимость
Выделяется широкое применение GRAM-R$^2$ в различных индустриях, в т.ч. в области разработки систем новых поколений (GPAI), в сфере обработки естественного языка, в системах рекомендаций и в задачах контроля качества. Модель позволяет сократить зависимость от больших данных для тренировки, увеличивая гибкость и эффективность моделей. Благодаря своему универсальному характеру, GRAM-R$^2$ может поддерживать разработку более зрелых и понятных моделей решений в будущем.
#### Выводы
Мы представляем GRAM-R$^2$, модель, которая способна генерировать не только ответы, но и логические объяснения для своих решений. Мы демонстрируем, что модель показывает высокую гибкость и выдерживает создание новых стандартов в области моделе
Abstract
Significant progress in reward modeling over recent years has been driven by
a paradigm shift from task-specific designs towards generalist reward models.
Despite this trend, developing effective reward models remains a fundamental
challenge: the heavy reliance on large-scale labeled preference data.
Pre-training on abundant unlabeled data offers a promising direction, but
existing approaches fall short of instilling explicit reasoning into reward
models. To bridge this gap, we propose a self-training approach that leverages
unlabeled data to elicit reward reasoning in reward models. Based on this
approach, we develop GRAM-R$^2$, a generative reward model trained to produce
not only preference labels but also accompanying reward rationales. GRAM-R$^2$
can serve as a foundation model for reward reasoning and can be applied to a
wide range of tasks with minimal or no additional fine-tuning. It can support
downstream applications such as response ranking and task-specific reward
tuning. Experiments on response ranking, task adaptation, and reinforcement
learning from human feedback demonstrate that GRAM-R$^2$ consistently delivers
strong performance, outperforming several strong discriminative and generative
baselines.
Ссылки и действия
Дополнительные ресурсы: