GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning

2509.02492v1 cs.CL, cs.LG 2025-09-05

Авторы:

Chenglong Wang, Yongyu Mu, Hang Zhou, Yifu Huo, Ziming Zhu, Jiali Zeng, Murun Yang, Bei Li, Tong Xiao, Xiaoyang Hao, Chunliang Zhang, Fandong Meng, Jingbo Zhu

Резюме на русском

#### Контекст Гармоничное обучение моделей на основе наград (reward modeling) является ключевым заданием в области искусственного интеллекта, особенно в рамках машинного обучения с подкреплением (reinforcement learning). Однако, существующие подходы сужаются только к определенным типам задач, чрезвычайно зависят от больших объемов руководственной данной (labeled data) и не включают в себя явный логический мотив для принятия решений модели. Это ограничивает их применение в условиях, где необходимо широкое и универсальное применение. Из-за этого, целью нынешнего исследования является развитие модели, которая не только может оценивать награды, но и способна логически обосновывать свои решения. #### Метод Мы предлагаем самоучительный (self-training) подход, который использует неразмеченные данные для создания модели с объясняемым резонансом в моделировании наград. Главной идеей является использование автокодировщиков для выделения фундаментальных причин модели для своих принятых решений. Мы представляем **GRAM-R$^2$**, модель, которая не только генерирует ответы, но и сопутствующие им логические объяснения. Модель обучается с использование неразмеченных данных для возможности исследования наград, и в дальнейшем может быть использована для различных задач, включая оценку ответов, адаптацию к задачам и улучшение моделей основанных на подкреплении. #### Результаты В ходе экспериментов мы применяли GRAM-R$^2$ к задачам, таким как оценка ответов, адаптация моделей и обучение с подкреплением с использованием руководства от людей. Модель показала высокую точность и логическую целостность в своих ответах. Она показала себя лучше, чем несколько дискриминативных и генеративных моделей, установив новый стандарт в области моделей наград. Эксперименты также подтвердили гибкость модели, которая может быть применена к различным задачам с минимальным или никаким тренировочным вкладом. #### Значимость Выделяется широкое применение GRAM-R$^2$ в различных индустриях, в т.ч. в области разработки систем новых поколений (GPAI), в сфере обработки естественного языка, в системах рекомендаций и в задачах контроля качества. Модель позволяет сократить зависимость от больших данных для тренировки, увеличивая гибкость и эффективность моделей. Благодаря своему универсальному характеру, GRAM-R$^2$ может поддерживать разработку более зрелых и понятных моделей решений в будущем. #### Выводы Мы представляем GRAM-R$^2$, модель, которая способна генерировать не только ответы, но и логические объяснения для своих решений. Мы демонстрируем, что модель показывает высокую гибкость и выдерживает создание новых стандартов в области моделе

Abstract

Significant progress in reward modeling over recent years has been driven by a paradigm shift from task-specific designs towards generalist reward models. Despite this trend, developing effective reward models remains a fundamental challenge: the heavy reliance on large-scale labeled preference data. Pre-training on abundant unlabeled data offers a promising direction, but existing approaches fall short of instilling explicit reasoning into reward models. To bridge this gap, we propose a self-training approach that leverages unlabeled data to elicit reward reasoning in reward models. Based on this approach, we develop GRAM-R$^2$, a generative reward model trained to produce not only preference labels but also accompanying reward rationales. GRAM-R$^2$ can serve as a foundation model for reward reasoning and can be applied to a wide range of tasks with minimal or no additional fine-tuning. It can support downstream applications such as response ranking and task-specific reward tuning. Experiments on response ranking, task adaptation, and reinforcement learning from human feedback demonstrate that GRAM-R$^2$ consistently delivers strong performance, outperforming several strong discriminative and generative baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация