A Stable and Principled Loss Function for Direct Language Model Alignment
2508.07137v1
cs.LG, cs.AI
2025-08-13
Авторы:
Yuandong Tan
Резюме на русском
#### Контекст
В последние годы появилось большое количество современных генеративных моделей языка, известных как Огромные Лингвистические Модели (LLM). Однако большинство этих моделей требуют специального финетюнинга или тренировки на основе ретроспективной оценки, чтобы выравниваться с потребностями человека. Одним из популярных подходов является Reinforcement Learning from Human Feedback (RLHF). Однако этот подход сложен в реализации и подвержен риску развития стохастических эффектов. Улучшение методов тренировки моделей, предназначенных для соответствия человеческим предпочтениям, является ключевым заданием в развитии интеллектуальных систем.
#### Метод
Мы предлагаем новую теоретически обоснованную функцию потерь для выравнивания Огромных Лингвистических Моделей с человеческими предпочтениями. Наше решение основывается на оптимальном условии теории работы агента в Реклабстрептивной Оптимизации (RLHF). В отличие от предыдущих подходов, таких как Direct Preference Optimization (DPO), наша функция потерь не стремится к неограниченному максимизации разницы в логитах. Вместо этого она оптимизирует конечное значение этой разницы, которое определяется внешним весом в формате реального штрафа. Используя градиентный подход, мы доказали, что наш подход избавляется от проблемы высоких градиентов, которые могут привести к устойчивости тренировки и уменьшению ошибок в случае отрицательных ответов. Мы также провели эксперименты на модели Qwen2.5-7B, чтобы проверить эффективность нашего подхода в реальных условиях.
#### Результаты
Мы применили нашу новую функцию потерь к модели Qwen2.5-7B в ходе серьезных экспериментов. Мы сравнили полученные результаты с базовым подходом Direct Preference Optimization (DPO) и другими экспериментальными подходами. Наши эксперименты показали, что новая функция потерь значительно повышает устойчивость тренировки и позволяет достичь высокого уровня конвергенции. Мы также проверили, насколько наш метод эффективен в сравнении с моделями большего размера, такими как Llama-3.1-8B. Наш результат достиг рекордного уровня совместимости, при этом низкого уровня восприятия нежелательных ответов и высокой устойчивости к выходам за семантический контекст.
#### Значимость
Наш подход широко может применяться в сфере развития интеллектуальных систем, в которой необходимо выявлять и вознаграждать пользовательские предпочтения в реальном времени. Одним из основных преимуществ нашего подхода является его стабильность и эффективность в сравнении с другими методами. Мы также отмечаем, что наше решение может способствовать более точному выравниванию моделей
Abstract
The alignment of large language models (LLMs) with human preferences is
commonly achieved through Reinforcement Learning from Human Feedback (RLHF).
Direct Preference Optimization (DPO) simplified this paradigm by establishing a
direct mapping between the optimal policy and a reward function, eliminating
the need for an explicit reward model. However, we argue that the DPO loss
function is theoretically misaligned with its own derivation, as it promotes
the indefinite maximization of a logits difference, which can lead to training
instability and reward hacking. In this paper, we propose a novel loss function
derived directly from the RLHF optimality condition. Our proposed loss targets
a specific, finite value for the logits difference, which is dictated by the
underlying reward, rather than its maximization. We provide a theoretical
analysis, including a gradient-based comparison, to demonstrate that our method
avoids the large gradients that plague DPO when the probability of dispreferred
responses approaches zero. This inherent stability prevents reward hacking and
leads to more effective alignment. We validate our approach by fine-tuning a
Qwen2.5-7B model, showing significant win-rate improvements over a standard DPO
baseline and achieving competitive performance against larger models like
Llama-3.1-8B.
Ссылки и действия
Дополнительные ресурсы: