VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision
2508.03058v1
cs.LG, cs.AI, cs.CL
2025-08-09
Авторы:
Dingwei Zhu, Shihan Dou, Zhiheng Xi, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui
Резюме на русском
**Резюме**
В текущих Reinforcement Learning from Human Feedback (RLHF) системах значительная проблема заключается в том, что наградная информация часто шумная и неточная, что приводит к проблемам с устойчивостью политики и ее общей работоспособностью. Особенно остро это проявляется при использовании моделей текстовых ответов, где неточности в награде могут привести к неверному принятию решений. В данной работе авторы показывают, что значительная часть этих проблем может быть решена путем улучшения значимости значения (value model). Они предлагают VRPO — новую архитектуру, которая стремится сделать значение модели более устойчивой к шумам с помощью двух основных элементов: (1) аугментации тренировочного процесса с помощью генерации слов и оценки энтропии, (2) использование информационного ограничения вариационного буттлнейка. Эти изменения превращают значение модели из простого предсказателя в активного регулятора шума, что позволяет политике более точно отсеивать мешающие сигналы. Эксперименты показали, что VRPO выдает значительно лучшие результаты по сравнению с PPO и GRPO на задачах математического разума, специальных вопросов и разговорных диалогах. Это подтверждает важность значения модели в RLHF и предлагает эффективный подход для борьбы с шумом в наградах.
Abstract
Reinforcement Learning from Human Feedback (RLHF) often suffers from noisy or
imperfect reward supervision in real-world settings, which undermines policy
stability and generalization. Such noise may cause models to lose attention on
key words during advantage estimation. While prior work focuses on reward
denoising or filtering poor data, it often overlooks the critical role of the
value model in policy optimization. In this work, we show that a strong value
model is essential for mitigating noise by absorbing unstable signals and
enabling more reliable advantage estimation. We propose VRPO, a value-centric
framework for robust PPO training under noisy supervision. VRPO combines two
core designs: (1) an auxiliary loss guided by entropy and perplexity from a
frozen language model, and (2) a variational information bottleneck. These
mechanisms enhance the value model's ability to filter out noise and capture
key words from the context during advantage estimation, transforming it from a
passive predictor into an active regulator of noise. Experiments on math
reasoning, science QA, and multi-turn dialogue, under both rule-based and
model-based noisy rewards, show that VRPO consistently outperforms PPO and GRPO
baselines. Our findings underscore the often-overlooked importance of the value
model in RLHF and offer a principled and practical approach to robust policy
optimization in noisy real-world environments.
Ссылки и действия
Дополнительные ресурсы: