Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

2509.23371v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng

Резюме на русском

#### Контекст Одна из ключевых задач в современной глубокой обработке естественного языка заключается в предпочтениях лингвистических моделей, которые должны соответствовать человеческим ценностям и интересам. Одной из трудностей в этой области является расхождение между данными, собранными в предварительном режиме, и динамически меняющимся политикой модели. Это расхождение приводит к проблемам при оптимизации предпочтений, так как статические методы не могут адаптироваться к изменениям в модели во время обучения. Это делает необходимым разработку динамических подходов, которые могут адаптироваться к различным стадиям тренировки модели. #### Метод Мы предлагаем новую методологию, названную Meta-Weighted Adaptive Preference Optimization (MetaAPO), которая целенаправленно решает проблему расхождения между данными и политикой модели. Этот подход включает в себя мета-учителя, использующийся в качестве "алгоритма оценки разрыва в предпочтениях", что позволяет динамически оценивать потенциальные выгоды динамического онлайн-семплинга по сравнению с оффлайн-данными. Этот мета-учитель работает как динамический механизм, который регулирует между качеством онлайн-данных и их дистрибуцией, чтобы обеспечить оптимальное соотношение между двумя задачами. #### Результаты Мы проводили эксперименты в средах AlpacaEval 2, Arena-Hard и MT-Bench. Наши результаты показывают, что MetaAPO не только улучшает качество предпочтений, но и демонстрирует значительное сокращение необходимости в онлайн-анализах (до 42%). Это делает нашу модель эффективнее и более адаптивной в сравнении с предыдущими подходами, которые не обладают такой динамичностью. #### Значимость Подход MetaAPO может применяться в различных областях, где необходима эффективная оптимизация предпочтений моделей. Он позволяет сократить затраты на онлайн-анализ, улучшает качество результатов и динамически адаптируется к изменениям в модели. Это делает его выгодным для применения в сценариях, где модель должна быть регулярно апдейтена и настраиваться под задачи пользователя. #### Выводы Мы привносим новую точку зрения в проблему оптимизации предпочтений с использованием динамического маркирования и мета-учителя. Наш подход демонстрирует сильные результаты в различных сценариях и показывает, что динамические адаптивные методы могут значительно улучшить качество и эффективность оптимизации предпочтений. В будущем нам предстоит расширить эту работу, чтобы проверить нашу модель на более широком наборе задач и моделей.

Abstract

Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework that dynamically couples data generation with model training. MetaAPO employs a lightweight meta-learner, as an "alignment gap estimator", to evaluate the potential benefits of on-policy sampling in relation to offline data. This guides targeted online generation and assigns sample-wise meta-weights to the optimization objective, dynamically balancing the quality and distribution of online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench demonstrate that MetaAPO consistently outperforms existing preference optimization approaches across various settings, while reducing 42% in online annotation costs.

Ссылки и действия