Diversity First, Quality Later: A Two-Stage Assumption for Language Model Alignment
2508.10530v1
cs.AI, cs.CL
2025-08-16
Авторы:
Zetian Sun, Dongfang Li, Baotian Hu
Резюме на русском
## Контекст
Современные языковые модели (LMs) широко используются в различных приложениях, от синтеза текста до генерации кода. Однако их успешное применение зависит от того, насколько они выравнены с желаниями и приоритетами человеческого пользователя. Эта проблема, известная как "выравнивание языковых моделей со стороны человека", является ключевым заданием для создания надежных и эффективных AI-систем. Исследователи предлагают множество подходов, но основной проблемой остается оптимальный способ измерения и управления приоритетами модели. Недавно была предложена методика Директ Преференс Оптимизации (DPO), которая упорядочивает языковые модели на основе статических данных о предпочтениях. Однако до сих пор не было изучено, как различные данные о предпочтениях влияют на эффективность этого подхода. Наша мотивация заключается в том, чтобы разобраться, почему работает DPO и как можно его оптимизировать.
## Метод
Мы предлагаем разделить процесс выравнивания языковых моделей на два этапа. В первом этапе, "инжекция предпочтений", языковая модель учитывает разнообразные данные о предпочтениях, чтобы улучшить общую тенденцию. Во втором этапе, "файн-тюнинг предпочтений", модель добивается высокой точности, используя высококачественные данные. Мы разработали теоретическую модель для анализа этих этапов и предложили метод Boundary Identification Algorithm (BIA), который помогает определить, в каком этапе работает лучше всего конкретный подход. Для экспериментов использовались 5 моделей с разным количеством параметров (Llama, Zephyr, Phi-2, Qwen, Pythia) и двумя методами выравнивания (DPO и SLiC-HF).
## Результаты
Наши эксперименты показали, что наибольшую эффективность DPO достигает при использовании начальных статических данных о предпочтениях, но только в том случае, если они имеют достаточную разнообразность. Второй этап, "файн-тюнинг", лучше работает с высококачественными данными, но только после того, как прошел первый этап. Мы доказали, что использование только одного типа данных может снизить эффективность. Например, для Llama-3 DPO с использованием только статических данных дал трёхкратный прирост эффективности, но для Zephyr этот подход дал лишь четвертиную. Эксперименты подтвердили, что BIA эффективно определяет, когда нужно переключаться между этими этапами.
## Значимость
Наша работа имеет значительное значение для практического применения языковых моделей. Мы показали, что выравнивание моделей может быть оптимизировано, если логически разделить процесс на этапы и применять соответствующие данные. Полученный подход может быть применен не только к DPO, но также к другим ме
Abstract
The alignment of language models (LMs) with human preferences is critical for
building reliable AI systems. The problem is typically framed as optimizing an
LM policy to maximize the expected reward that reflects human preferences.
Recently, Direct Preference Optimization (DPO) was proposed as a LM alignment
method that directly optimize the policy from static preference data, and
further improved by incorporating on-policy sampling (i.e., preference
candidates generated during the training loop) for better LM alignment.
However, we show on-policy data is not always optimal, with systematic
effectiveness difference emerging between static and on-policy preference
candidates. For example, on-policy data can result in a 3$\times$ effectiveness
compared with static data for Llama-3, and a 0.4$\times$ effectiveness for
Zephyr. To explain the phenomenon, we propose the alignment stage assumption,
which divides the alignment process into two distinct stages: the preference
injection stage, which benefits from diverse data, and the preference
fine-tuning stage, which favors high-quality data. Through theoretical and
empirical analysis, we characterize these stages and propose an effective
algorithm to identify the boundaries between them. We perform experiments on 5
models (Llama, Zephyr, Phi-2, Qwen, Pythia) and 2 alignment methods (DPO,
SLiC-HF) to show the generalizability of alignment stage assumption and
boundary measurement.
Ссылки и действия
Дополнительные ресурсы: