Reinforcement Learning with Rubric Anchors

2508.12790v1 cs.AI, cs.CL, cs.LG 2025-08-20

Авторы:

Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao

Резюме на русском

Область исследований в данной статье посвящена развитию Reinforcement Learning from Verifiable Rewards (RLVR), который является мощным подходом для улучшения возможностей Large Language Models (LLMs). Особо отмечается успех ранее разработанных моделей, таких как o-series от OpenAI. Однако настоящая проблема RLVR заключается в его ограниченности к доменам, где выход модели может быть автоматически проверен. Данная статья подходит к решению этой проблемы, расширяя RLVR на открытые задачи с использованием базы данных верифицируемых критериев (rubrics), созданных человеком, либо с помощью совместных усилий человека и модели. Наибольший упор в статье сделан на разработке и применение этой новой методологии в обучении моделей. ### Контекст В настоящее время, Reinforcement Learning from Verifiable Rewards (RLVR) широко используется для улучшения функциональных возможностей моделей языка. Однако, ограничение этого подхода в том, что он работает только в ограниченных областях, где результаты модели могут быть проверены автоматически. Например, в программировании можно проверить код на соответствие тестам, а в математике - ответы на задачи. Это ограничивает область применения RLVR. Для устранения этого ограничения, авторы предлагают расширить RLVR на открытые задачи с помощью **rubric-based rewards**, т.е. структурированных критериев, которые могут быть автоматически оценены моделью. Эта идея позволяет расширить область применения RLVR, включив в нее такие задачи, как гуманитарные науки, где оценка обычно требует человеческого вмешательства. ### Метод Для решения данной проблемы авторы предлагают разработать новую методологию, основываясь на структурированных критериях (rubrics). Эти критерии являются программно определяемыми показателями, позволяющими автоматически оценивать ответы модели. Архитектура RLVR расширяется таким образом, что она может использовать эти rubrics в качестве знаков-анахорз (anchors) для обучения модели. Использование этого подхода позволяет значительно расширить область применения RLVR, включив в него такие задачи, как гуманитарные науки, где требуется человеческая оценка. Кроме того, авторы предлагают новую архитектуру Qwen-30B-A3B с использованием этой новой методологии, которая показывает существенные улучшения в открытых задачах. ### Результаты Авторы провели эксперименты с использованием новой архитектуры Qwen-30B-A3B, используя базу данных с более чем 10,000 rubrics, разработанными человеком, моделью или в совместной работе человека и модели. Они проверили свой подход на открытых бенчмарках, включая задачи в области гуманитарных наук. Результаты показали, что их модель демонстрирует значительные улучшения по сравнению с другими моделями. Например, она показала +5.2% улуч

Abstract

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing Large Language Models (LLMs), exemplified by the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable signals-such as passing unit tests in code generation or matching correct answers in mathematical reasoning. While effective, this requirement largely confines RLVR to domains with automatically checkable outcomes. To overcome this, we extend the RLVR paradigm to open-ended tasks by integrating rubric-based rewards, where carefully designed rubrics serve as structured, model-interpretable criteria for automatic scoring of subjective outputs. We construct, to our knowledge, the largest rubric reward system to date, with over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration. Implementing rubric-based RL is challenging; we tackle these issues with a clear framework and present an open-sourced Qwen-30B-A3B model with notable gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by +2.4%, while preserving general and reasoning abilities. 2) Our method provides fine-grained stylistic control, using rubrics as anchors to mitigate the "AI-like" tone and produce more human-like, expressive responses. We share key lessons in rubric construction, data selection, and training, and discuss limitations and future releases.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reinforcement Learning with Rubric Anchors

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

STELLA: Guiding Large Language Models for Time Series Forecasting with Semantic ...

LEC: Linear Expectation Constraints for False-Discovery Control in Selective Pre...

Guided Self-Evolving LLMs with Minimal Human Supervision

Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoni...

ORION: Teaching Language Models to Reason Efficiently in the Language of Thought

Навигация