Failure Modes of Maximum Entropy RLHF
2509.20265v1
cs.LG, cs.CL
2025-09-26
Авторы:
Ömer Veysel Çağatan, Barış Akgün
Резюме на русском
## Контекст
Максимальная энтропия в реинкарнации обучения с подкреплением (RLHF) является мощным подходом для обучения приобретений поведения, основываясь на максимизации энтропии распределения политики. Однако существуют проблемы, такие как неоднородность в динамике обучения, переобучение и нестабильность в динамике KL. Эти проблемы могут привести к ошибкам, таким как "reward hacking" (нарушение целей обучения). Несмотря на свой успех в некоторых задачах, подобные методы все еще требуют дополнительного исследования, особенно в контексте онлайн-обучения приобретения поведения. Наша мотивация заключается в изучении, почему такие подходы могут быть эффективны в оффлайн-обучении, но сталкиваются с трудностями в онлайн-сценариях.
## Метод
Мы используем метод максимальной энтропии в RLHF с нормализованной длиной для обучения, а также SimPO в качестве сравнительного метода. Для экспериментов используются тренировочные наборы данных, настроенные для моделирования онлайн- и оффлайн-режимов обучения. Мы подробно изучаем влияние параметров, таких как температура и обучение с низкими скоростями, на динамику обучения. Методология включает эксперименты с различными наборами данных, чтобы изучить устойчивость и эффективность обучения в разных условиях.
## Результаты
Наши эксперименты показали, что максимальная энтропия в RLHF часто приводит к переобучению и нестабильности в динамике KL. Эти эффекты были заметны даже при очень малых скоростях обучения. Мы также обнаружили, что при использовании SimPO в оффлайн-режимах не возникали таких проблем, что указывает на различия в между оффлайн- и онлайн-сценариями. Мы также изучили, как различные значения температуры влияют на траектории обучения и находили, что высокие значения температуры могут привести к ошибкам в оценке приобретения поведения.
## Значимость
Наши результаты имеют значение для развития методов обучения приобретения поведения в RLHF. Они помогают понять, почему SimPO может быть более эффективен в оффлайн-задачах, чем максимальная энтропия RLHF. Эти результаты также направляют нас в будущие исследования, в том числе в поиске методов, которые могут устранить проблему "reward hacking" и обеспечить более стабильную динамику обучения в онлайн-сценариях.
## Выводы
Мы показали, что максимальная энтропия в RLHF может быть эффективной в оффлайн-задачах, но сталкивается с трудностями в онлайн-сценариях, в том числе с переобучением и нестабильностью динамики KL. Мы также обнаружили, что SimPO успешнее в оффлайн-задачах, но требуется больше исследований для решения про
Abstract
In this paper, we show that Simple Preference Optimization (SimPO) can be
derived as Maximum Entropy Reinforcement Learning with length-normalized
temperature, providing a theoretical foundation for this reference-free method.
Motivated by SimPO's strong performance in offline preference optimization, we
investigate whether Maximum Entropy RL can achieve similar results in online
RLHF settings. Our experiments find that Maximum Entropy RL consistently
exhibits overoptimization and unstable KL dynamics, even at very low learning
rates. Unlike KL-constrained methods that maintain stable training, entropy
regularization fails to prevent reward hacking and appears to correlate with
overoptimization. Lastly, we discuss possible explanations for why SimPO
succeeds in offline settings while Maximum Entropy RL struggles in online
scenarios. Our findings suggest that reference-free approaches may face
distinct challenges when applied to online or offline preference learning.
Ссылки и действия
Дополнительные ресурсы: