Diversity First, Quality Later: A Two-Stage Assumption for Language Model Alignment

2508.10530v1 cs.AI, cs.CL 2025-08-16
Авторы:

Zetian Sun, Dongfang Li, Baotian Hu

Резюме на русском

## Контекст Современные языковые модели (LMs) широко используются в различных приложениях, от синтеза текста до генерации кода. Однако их успешное применение зависит от того, насколько они выравнены с желаниями и приоритетами человеческого пользователя. Эта проблема, известная как "выравнивание языковых моделей со стороны человека", является ключевым заданием для создания надежных и эффективных AI-систем. Исследователи предлагают множество подходов, но основной проблемой остается оптимальный способ измерения и управления приоритетами модели. Недавно была предложена методика Директ Преференс Оптимизации (DPO), которая упорядочивает языковые модели на основе статических данных о предпочтениях. Однако до сих пор не было изучено, как различные данные о предпочтениях влияют на эффективность этого подхода. Наша мотивация заключается в том, чтобы разобраться, почему работает DPO и как можно его оптимизировать. ## Метод Мы предлагаем разделить процесс выравнивания языковых моделей на два этапа. В первом этапе, "инжекция предпочтений", языковая модель учитывает разнообразные данные о предпочтениях, чтобы улучшить общую тенденцию. Во втором этапе, "файн-тюнинг предпочтений", модель добивается высокой точности, используя высококачественные данные. Мы разработали теоретическую модель для анализа этих этапов и предложили метод Boundary Identification Algorithm (BIA), который помогает определить, в каком этапе работает лучше всего конкретный подход. Для экспериментов использовались 5 моделей с разным количеством параметров (Llama, Zephyr, Phi-2, Qwen, Pythia) и двумя методами выравнивания (DPO и SLiC-HF). ## Результаты Наши эксперименты показали, что наибольшую эффективность DPO достигает при использовании начальных статических данных о предпочтениях, но только в том случае, если они имеют достаточную разнообразность. Второй этап, "файн-тюнинг", лучше работает с высококачественными данными, но только после того, как прошел первый этап. Мы доказали, что использование только одного типа данных может снизить эффективность. Например, для Llama-3 DPO с использованием только статических данных дал трёхкратный прирост эффективности, но для Zephyr этот подход дал лишь четвертиную. Эксперименты подтвердили, что BIA эффективно определяет, когда нужно переключаться между этими этапами. ## Значимость Наша работа имеет значительное значение для практического применения языковых моделей. Мы показали, что выравнивание моделей может быть оптимизировано, если логически разделить процесс на этапы и применять соответствующие данные. Полученный подход может быть применен не только к DPO, но также к другим ме

Abstract

The alignment of language models (LMs) with human preferences is critical for building reliable AI systems. The problem is typically framed as optimizing an LM policy to maximize the expected reward that reflects human preferences. Recently, Direct Preference Optimization (DPO) was proposed as a LM alignment method that directly optimize the policy from static preference data, and further improved by incorporating on-policy sampling (i.e., preference candidates generated during the training loop) for better LM alignment. However, we show on-policy data is not always optimal, with systematic effectiveness difference emerging between static and on-policy preference candidates. For example, on-policy data can result in a 3$\times$ effectiveness compared with static data for Llama-3, and a 0.4$\times$ effectiveness for Zephyr. To explain the phenomenon, we propose the alignment stage assumption, which divides the alignment process into two distinct stages: the preference injection stage, which benefits from diverse data, and the preference fine-tuning stage, which favors high-quality data. Through theoretical and empirical analysis, we characterize these stages and propose an effective algorithm to identify the boundaries between them. We perform experiments on 5 models (Llama, Zephyr, Phi-2, Qwen, Pythia) and 2 alignment methods (DPO, SLiC-HF) to show the generalizability of alignment stage assumption and boundary measurement.

Ссылки и действия