Failure Modes of Maximum Entropy RLHF

2509.20265v1 cs.LG, cs.CL 2025-09-26
Авторы:

Ömer Veysel Çağatan, Barış Akgün

Резюме на русском

## Контекст Максимальная энтропия в реинкарнации обучения с подкреплением (RLHF) является мощным подходом для обучения приобретений поведения, основываясь на максимизации энтропии распределения политики. Однако существуют проблемы, такие как неоднородность в динамике обучения, переобучение и нестабильность в динамике KL. Эти проблемы могут привести к ошибкам, таким как "reward hacking" (нарушение целей обучения). Несмотря на свой успех в некоторых задачах, подобные методы все еще требуют дополнительного исследования, особенно в контексте онлайн-обучения приобретения поведения. Наша мотивация заключается в изучении, почему такие подходы могут быть эффективны в оффлайн-обучении, но сталкиваются с трудностями в онлайн-сценариях. ## Метод Мы используем метод максимальной энтропии в RLHF с нормализованной длиной для обучения, а также SimPO в качестве сравнительного метода. Для экспериментов используются тренировочные наборы данных, настроенные для моделирования онлайн- и оффлайн-режимов обучения. Мы подробно изучаем влияние параметров, таких как температура и обучение с низкими скоростями, на динамику обучения. Методология включает эксперименты с различными наборами данных, чтобы изучить устойчивость и эффективность обучения в разных условиях. ## Результаты Наши эксперименты показали, что максимальная энтропия в RLHF часто приводит к переобучению и нестабильности в динамике KL. Эти эффекты были заметны даже при очень малых скоростях обучения. Мы также обнаружили, что при использовании SimPO в оффлайн-режимах не возникали таких проблем, что указывает на различия в между оффлайн- и онлайн-сценариями. Мы также изучили, как различные значения температуры влияют на траектории обучения и находили, что высокие значения температуры могут привести к ошибкам в оценке приобретения поведения. ## Значимость Наши результаты имеют значение для развития методов обучения приобретения поведения в RLHF. Они помогают понять, почему SimPO может быть более эффективен в оффлайн-задачах, чем максимальная энтропия RLHF. Эти результаты также направляют нас в будущие исследования, в том числе в поиске методов, которые могут устранить проблему "reward hacking" и обеспечить более стабильную динамику обучения в онлайн-сценариях. ## Выводы Мы показали, что максимальная энтропия в RLHF может быть эффективной в оффлайн-задачах, но сталкивается с трудностями в онлайн-сценариях, в том числе с переобучением и нестабильностью динамики KL. Мы также обнаружили, что SimPO успешнее в оффлайн-задачах, но требуется больше исследований для решения про

Abstract

In this paper, we show that Simple Preference Optimization (SimPO) can be derived as Maximum Entropy Reinforcement Learning with length-normalized temperature, providing a theoretical foundation for this reference-free method. Motivated by SimPO's strong performance in offline preference optimization, we investigate whether Maximum Entropy RL can achieve similar results in online RLHF settings. Our experiments find that Maximum Entropy RL consistently exhibits overoptimization and unstable KL dynamics, even at very low learning rates. Unlike KL-constrained methods that maintain stable training, entropy regularization fails to prevent reward hacking and appears to correlate with overoptimization. Lastly, we discuss possible explanations for why SimPO succeeds in offline settings while Maximum Entropy RL struggles in online scenarios. Our findings suggest that reference-free approaches may face distinct challenges when applied to online or offline preference learning.

Ссылки и действия