A Stable and Principled Loss Function for Direct Language Model Alignment

2508.07137v1 cs.LG, cs.AI 2025-08-13
Авторы:

Yuandong Tan

Резюме на русском

#### Контекст В последние годы появилось большое количество современных генеративных моделей языка, известных как Огромные Лингвистические Модели (LLM). Однако большинство этих моделей требуют специального финетюнинга или тренировки на основе ретроспективной оценки, чтобы выравниваться с потребностями человека. Одним из популярных подходов является Reinforcement Learning from Human Feedback (RLHF). Однако этот подход сложен в реализации и подвержен риску развития стохастических эффектов. Улучшение методов тренировки моделей, предназначенных для соответствия человеческим предпочтениям, является ключевым заданием в развитии интеллектуальных систем. #### Метод Мы предлагаем новую теоретически обоснованную функцию потерь для выравнивания Огромных Лингвистических Моделей с человеческими предпочтениями. Наше решение основывается на оптимальном условии теории работы агента в Реклабстрептивной Оптимизации (RLHF). В отличие от предыдущих подходов, таких как Direct Preference Optimization (DPO), наша функция потерь не стремится к неограниченному максимизации разницы в логитах. Вместо этого она оптимизирует конечное значение этой разницы, которое определяется внешним весом в формате реального штрафа. Используя градиентный подход, мы доказали, что наш подход избавляется от проблемы высоких градиентов, которые могут привести к устойчивости тренировки и уменьшению ошибок в случае отрицательных ответов. Мы также провели эксперименты на модели Qwen2.5-7B, чтобы проверить эффективность нашего подхода в реальных условиях. #### Результаты Мы применили нашу новую функцию потерь к модели Qwen2.5-7B в ходе серьезных экспериментов. Мы сравнили полученные результаты с базовым подходом Direct Preference Optimization (DPO) и другими экспериментальными подходами. Наши эксперименты показали, что новая функция потерь значительно повышает устойчивость тренировки и позволяет достичь высокого уровня конвергенции. Мы также проверили, насколько наш метод эффективен в сравнении с моделями большего размера, такими как Llama-3.1-8B. Наш результат достиг рекордного уровня совместимости, при этом низкого уровня восприятия нежелательных ответов и высокой устойчивости к выходам за семантический контекст. #### Значимость Наш подход широко может применяться в сфере развития интеллектуальных систем, в которой необходимо выявлять и вознаграждать пользовательские предпочтения в реальном времени. Одним из основных преимуществ нашего подхода является его стабильность и эффективность в сравнении с другими методами. Мы также отмечаем, что наше решение может способствовать более точному выравниванию моделей

Abstract

The alignment of large language models (LLMs) with human preferences is commonly achieved through Reinforcement Learning from Human Feedback (RLHF). Direct Preference Optimization (DPO) simplified this paradigm by establishing a direct mapping between the optimal policy and a reward function, eliminating the need for an explicit reward model. However, we argue that the DPO loss function is theoretically misaligned with its own derivation, as it promotes the indefinite maximization of a logits difference, which can lead to training instability and reward hacking. In this paper, we propose a novel loss function derived directly from the RLHF optimality condition. Our proposed loss targets a specific, finite value for the logits difference, which is dictated by the underlying reward, rather than its maximization. We provide a theoretical analysis, including a gradient-based comparison, to demonstrate that our method avoids the large gradients that plague DPO when the probability of dispreferred responses approaches zero. This inherent stability prevents reward hacking and leads to more effective alignment. We validate our approach by fine-tuning a Qwen2.5-7B model, showing significant win-rate improvements over a standard DPO baseline and achieving competitive performance against larger models like Llama-3.1-8B.

Ссылки и действия