Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

2508.07750v1 cs.LG, cs.AI, cs.CL 2025-08-13
Авторы:

Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu

Резюме на русском

## Контекст Одним из ключевых направлений развития языковых моделей является улучшение их возможностей алигментации. Это позволяет моделям лучше понимать и воспроизводить человеческие предпочтения в различных контекстах. Существующие подходы, такие как супервизованная тонкая настройка (SFT) и оптимизация политики с использованием опыта (PPO), имеют свои ограничения. SFT обеспечивает высокую точность, но не может эффективно адаптироваться к новым задачам. PPO, в свою очередь, предлагает более гибкий подход, но требует большого объема вычислительных ресурсов и высококачественных основных моделей. Эти ограничения поднимают вопрос о создании более универсального и эффективного подхода к алигментации. ## Метод Мы предлагаем **GRAO (Group Relative Alignment Optimization)** — унифицированный фреймворк, который объединяет сильные стороны SFT и RL. Фундаментальной идеей является использование **групповой оценки качества** и **относительной алигментации**. Метод включает следующие ключевые компоненты: 1. **Множественное генерирование сравнительного анализа**: модель генерирует несколько вариантов ответов и сравнивает их с помощью внешнего рейтинга, чтобы определить качество. 2. **Новая формула Group Direct Alignment Loss**: включает в себя весовую оценку внутригрупповых отношений, чтобы улучшить точность. 3. **Управление параметрами с учетом справочных данных**: адаптирует модель на основе параметров, которые учитывают предпочтения пользователя в динамическом режиме. Теоретические обоснования подтверждают, что GRAO обеспечивает более эффективную оптимизацию и высокую точность в сравнении с существующими методами. ## Результаты Мы провели эксперименты на множестве задач, включая комплексные задачи выравнивания на основе человеческих оценок. GRAO показал следующие результаты по сравнению с базовыми подходами: - **SFT**: 57.70% дополнительное улучшение в выполнении задач. - **DPO**: 17.65% улучшение в точности. - **PPO**: 7.95% уменьшение времени обучения. - **GRPO**: 5.18% увеличение эффективности. Эти результаты подтверждают эффективность GRAO в решении задач, где требуется быстрая и точная алигментация. ## Значимость GRAO может применяться в таких областях, как диалоговые системы, трансляторы и системы поиска информации. Он обеспечивает: - Более эффективную алигментацию за счет интеграции лучших аспектов SFT и RL. - Улучшенную точность и ресурсоснимаемость, что делает его привлекательным для реальных приложений. - Устойчивость к новым задачам без необходимости частых дорогостоящих тюнингов. ## Выводы GRAO

Abstract

Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.

Ссылки и действия