TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference
2509.15110v1
cs.LG, cs.CL
2025-09-20
Авторы:
Dan Zhang, Min Cai, Jonathan Li, Ziniu Hu, Yisong Yue, Yuxiao Dong, Jie Tang
Резюме на русском
## Контекст
Одной из ключевых проблем в области глубокого обучения с подкреплением (Reinforcement Learning, RL) для языковых моделей является необходимость эффективного обучения моделей награды (reward models). Наградные модели широко используются для расширения возможностей языковых моделей, в том числе для решения задач поиска, вывода и моделирования целей в тексте. Однако существующие модели награды часто не устойчивы к изменениям во входных данных и не обеспечивают гладкую и консистентную оценку поведения агента. Это приводит к нестабильности во время обучения и неэффективным политикам. Необходимо разработать метод, который улучшит свойства наградных моделей, обеспечив более стабильное и эффективное обучение.
## Метод
Мы предлагаем **TDRM (Temporal Difference Reward Model)**, метод, который использует принципы временных разностей (temporal differences, TD) для обучения наградных моделей. Целью TDRM является уменьшение значения временных разностей во время обучения, что приводит к более гладким и консистентным наградам. Метод основывается на актор-критик-стиле обучения и включает в себя регуляризацию темпоральных разностей. Для тренировки TDRM используются большие языковые модели (LLM) в качестве критиков, а процессу обучения применяется техника подкрепления (RL), что позволяет использовать TDRM как для RL, так и для инференса. Также мы рассматриваем возможность использования TDRM в серии с методом Reinforcement Learning with Verifiable Rewards (RLVR).
## Результаты
Мы провели эксперименты на нескольких наборах данных, включая best-of-N, tree-search и RLVR. Результаты показали, что TDRM улучшает производительность в best-of-N на 6.6% и в tree-search на 23.7%. Кроме того, комбинация TDRM с RLVR дает данным эффективность: с 2.5k данных TDRM достигает результатов, которые стандартные методы достигают только с 50.1k данных. Мы провели эксперименты с пятью моделями языка, включая Qwen, GLM и DeepSeek, и подтвердили, что TDRM улучшает качество политик и обеспечивает более стабильное обучение. Эти результаты показывают, что TDRM значительно улучшает качество наградных моделей и увеличивает эффективность RL.
## Значимость
Метод TDRM может быть применен во многих областях, где требуется эффективное моделирование наград для RL или проверка на выводе (verification). Он является сильным дополнением к существующим методам, таким как RLVR, и может применяться в серии с ними. Главное преимущество TDRM заключается в его улучшенной стабильности и высоком качестве оценки поведения агента. Это приводит к более эффективному и действительному пользовательскому поведению. Будущие исследования будут сфокусированы на расширении применимости TDRM к более широким задачам и на проведении экспери
Abstract
Reward models are central to both reinforcement learning (RL) with language
models and inference-time verification. However, existing reward models often
lack temporal consistency, leading to ineffective policy updates and unstable
RL training. We introduce TDRM, a method for learning smoother and more
reliable reward models by minimizing temporal differences during training. This
temporal-difference (TD) regularization produces smooth rewards and improves
alignment with long-term objectives. Incorporating TDRM into the actor-critic
style online RL loop yields consistent empirical gains. It is worth noting that
TDRM is a supplement to verifiable reward methods, and both can be used in
series. Experiments show that TD-trained process reward models (PRMs) improve
performance across Best-of-N (up to 6.6%) and tree-search (up to 23.7%)
settings. When combined with Reinforcement Learning with Verifiable Rewards
(RLVR), TD-trained PRMs lead to more data-efficient RL -- achieving comparable
performance with just 2.5k data to what baseline methods require 50.1k data to
attain -- and yield higher-quality language model policies on 8 model variants
(5 series), e.g., Qwen2.5-(0.5B, 1,5B), GLM4-9B-0414, GLM-Z1-9B-0414,
Qwen2.5-Math-(1.5B, 7B), and DeepSeek-R1-Distill-Qwen-(1.5B, 7B). We release
all code at https://github.com/THUDM/TDRM.
Ссылки и действия
Дополнительные ресурсы: