Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
2508.07750v1
cs.LG, cs.AI, cs.CL
2025-08-13
Авторы:
Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
Резюме на русском
## Контекст
Одним из ключевых направлений развития языковых моделей является улучшение их возможностей алигментации. Это позволяет моделям лучше понимать и воспроизводить человеческие предпочтения в различных контекстах. Существующие подходы, такие как супервизованная тонкая настройка (SFT) и оптимизация политики с использованием опыта (PPO), имеют свои ограничения. SFT обеспечивает высокую точность, но не может эффективно адаптироваться к новым задачам. PPO, в свою очередь, предлагает более гибкий подход, но требует большого объема вычислительных ресурсов и высококачественных основных моделей. Эти ограничения поднимают вопрос о создании более универсального и эффективного подхода к алигментации.
## Метод
Мы предлагаем **GRAO (Group Relative Alignment Optimization)** — унифицированный фреймворк, который объединяет сильные стороны SFT и RL. Фундаментальной идеей является использование **групповой оценки качества** и **относительной алигментации**. Метод включает следующие ключевые компоненты:
1. **Множественное генерирование сравнительного анализа**: модель генерирует несколько вариантов ответов и сравнивает их с помощью внешнего рейтинга, чтобы определить качество.
2. **Новая формула Group Direct Alignment Loss**: включает в себя весовую оценку внутригрупповых отношений, чтобы улучшить точность.
3. **Управление параметрами с учетом справочных данных**: адаптирует модель на основе параметров, которые учитывают предпочтения пользователя в динамическом режиме.
Теоретические обоснования подтверждают, что GRAO обеспечивает более эффективную оптимизацию и высокую точность в сравнении с существующими методами.
## Результаты
Мы провели эксперименты на множестве задач, включая комплексные задачи выравнивания на основе человеческих оценок. GRAO показал следующие результаты по сравнению с базовыми подходами:
- **SFT**: 57.70% дополнительное улучшение в выполнении задач.
- **DPO**: 17.65% улучшение в точности.
- **PPO**: 7.95% уменьшение времени обучения.
- **GRPO**: 5.18% увеличение эффективности.
Эти результаты подтверждают эффективность GRAO в решении задач, где требуется быстрая и точная алигментация.
## Значимость
GRAO может применяться в таких областях, как диалоговые системы, трансляторы и системы поиска информации. Он обеспечивает:
- Более эффективную алигментацию за счет интеграции лучших аспектов SFT и RL.
- Улучшенную точность и ресурсоснимаемость, что делает его привлекательным для реальных приложений.
- Устойчивость к новым задачам без необходимости частых дорогостоящих тюнингов.
## Выводы
GRAO
Abstract
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.
Ссылки и действия
Дополнительные ресурсы: