On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
2508.11408v1
cs.LG, cs.AI
2025-08-19
Авторы:
Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou
Резюме на русском
#### Контекст
Large Language Models (LLMs) широко применяются в различных областях, но часто требуют дополнительной настройки для повышения точности или подстройки поведения под конкретные задачи. Основные подходы к этой настройке — **Supervised Fine-Tuning (SFT)** и **Reinforcement Learning (RL)** — имеют свои преимущества и ограничения. SFT эффективен в закреплении конкретных знаний, но может потерять гибкость. RL, в свою очередь, позволяет формировать поведение в процессе интерактивных задач, но может сталкиваться с проблемами оптимизации и переобучением. Недостаток существующих подходов заключается в риске разрушения уже установленных модельных шаблонов или переобучении к экспертным данным в сценариях интеграции SFT и RL. Мотивирует эту работу желание создать метод, который бы использовал преимущества обеих парадигм, сохраняя стабильность и эффективность.
#### Метод
Мы предлагаем CHORD — **Controllable Harmonies of On- и Off-Policy Reinforcement Learning via Dynamic Weighing**. Это фреймворк, который представляет SFT не как отдельный этап, а как динамически весовый вспомогательный цель в процессе RL. Основной идеей является анализ влияния off-policy экспертных данных на модель как на глобальном, так и на токенном уровне. Основные компоненты CHORD:
1. **Глобальный коэффициент**: управляет переходом от имитационной стратегии RL к эксплорейторской.
2. **Токен-wise weighting function**: позволяет модели учиться от экспертных данных на токенном уровне без нарушения всего процесса.
Этот подход стабилизирует обучение и позволяет эффективно использовать off-policy данные, не подвергаясь риску переобучения.
#### Результаты
Мы провели эксперименты на популярных бенчмарках для оценки CHORD. Использовались различные модели LLMs и наборы данных для оценки. Результаты показали, что CHORD достигает **высокой стабильности** и **эффективности** в обучении, существенно превосходя базовые модели и другие подходы к интеграции SFT и RL. Мы также обнаружили, что динамический вес приводит к более точной адаптации модели к задачам, при этом избегая рисков разрушения уже установленных шаблонов.
#### Значимость
CHORD может быть применен в сценариях, где требуется высокая точность и гибкость LLMs, таких как NLP-задачи, генерация кода, интерактивные системы и приложения в сфере ИИ. Преимущества CHORD включают:
- Уменьшение риска переобучения к экспертным данным.
- Гармоничное интегрирование SFT и RL.
- Увеличение эффективности и стабильности обучения.
Мы видим потенциал CHORD в оптимизации LLM для сложных задач, где требуется компромисс между гибкостью и стабильностью.
#### Выводы
CHORD достигает значительных улучшений в интеграции SFT и RL, показывая его эффективност
Abstract
Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) are two
prominent post-training paradigms for refining the capabilities and aligning
the behavior of Large Language Models (LLMs). Existing approaches that
integrate SFT and RL often face the risk of disrupting established model
patterns and inducing overfitting to expert data. To address this, we present a
novel investigation into the unified view of SFT and RL through an off-policy
versus on-policy lens. We propose CHORD, a framework for the Controllable
Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic
Weighting, which reframes SFT not as a separate stage but as a dynamically
weighted auxiliary objective within the on-policy RL process. Based on an
analysis of off-policy expert data's influence at both holistic and granular
levels, we incorporate a dual-control mechanism in CHORD. Specifically, the
framework first employs a global coefficient to holistically guide the
transition from off-policy imitation to on-policy exploration, and then applies
a token-wise weighting function that enables granular learning from expert
tokens, which preserves on-policy exploration and mitigates disruption from
off-policy data. We conduct extensive experiments on widely used benchmarks,
providing empirical evidence that CHORD achieves a stable and efficient
learning process. By effectively harmonizing off-policy expert data with
on-policy exploration, CHORD demonstrates significant improvements over
baselines. We release the implementation at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord to
inspire further research.
Ссылки и действия
Дополнительные ресурсы: