Towards a Unified View of Large Language Model Post-Training
2509.04419v1
cs.LG, cs.AI, cs.CL
2025-09-06
Авторы:
Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
Резюме на русском
## Контекст
В последние годы широко развиваются системы генерации текстов на основе трансформеров, основанных на ло LLM (Large Language Models). Однако достичь высокого качества текстов часто требуется дополнительная обучение, который называется post-training. Этот процесс может использовать различные виды данных, таких как генерированные моделью (online) или полученные от пользователей или других моделей (offline). Исследователи часто рассматривают эти два типа данных как несовместимые. Наша работа выявляет, что обучение с помощью этих данных может быть успешно интегрировано в единую модель, что упрощает процесс обучения и улучшает результаты.
## Метод
Мы разработали новый метод, который объединяет различные подходы к post-training в единую модель. Этот подход основан на формуле политического градиента, которая позволяет динамически использовать различные источники данных. Мы разработали четыре основных компонента этой формулы: маска для стабилизации, ссылочная политика, оценка преимущества и градиент логарифмической вероятности. Эти компоненты позволяют нам эффективно интегрировать различные типы данных и корректно сбалансировать доминирование примеров и источников данных.
## Результаты
Мы провели эксперименты с нашим методом на шести абстрактных бенчмарках и двух базовых наборах данных. Наш новый подход, Hybrid Post-Training (HPT), показал себя лучше, чем существующие подходы, в том числе Reinforcement Learning (RL) и Supervised Fine-Tuning (SFT). Мы получили значительные улучшения в распознавании текста и генерации новых текстов, с одинаковым успехом работающий с онлайновыми и оффлайновыми данными. Абляционные исследования подтвердили эффективность каждого из компонентов нашего метода.
## Значимость
Предложенный подход имеет широкое применение в области генерации текстов, в том числе в сферах, где требуется высокое качество текста, такие как роботы-консультанты и генераторы текстов. Он позволяет объединить различные источники данных, что ускоряет и упрощает процесс обучения. Это может привести к более эффективным и мощным системам генерации текстов, которые будут более устойчивыми к разным типам данных.
## Выводы
Наше исследование показало, что обучение моделей после их стандартного обучения может быть эффективно интегрировано в единую модель. Мы сформулировали новый подход, который динамически выбирает между различными типами данных и позволяет стабильно улучшать качество текста. Будущие исследования будут сфокусированы на расширении этой модели для более сложных задач, таких как диалоговые системы и моделирование знаний.
Abstract
Two major sources of training data exist for post-training modern language
models: online (model-generated rollouts) data, and offline (human or
other-model demonstrations) data. These two types of data are typically used by
approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT),
respectively. In this paper, we show that these approaches are not in
contradiction, but are instances of a single optimization process. We derive a
Unified Policy Gradient Estimator, and present the calculations of a wide
spectrum of post-training approaches as the gradient of a common objective
under different data distribution assumptions and various bias-variance
tradeoffs. The gradient estimator is constructed with four interchangeable
parts: stabilization mask, reference policy denominator, advantage estimate,
and likelihood gradient. Motivated by our theoretical findings, we propose
Hybrid Post-Training (HPT), an algorithm that dynamically selects different
training signals. HPT is designed to yield both effective exploitation of
demonstration and stable exploration without sacrificing learned reasoning
patterns. We provide extensive experiments and ablation studies to verify the
effectiveness of our unified theoretical framework and HPT. Across six
mathematical reasoning benchmarks and two out-of-distribution suites, HPT
consistently surpasses strong baselines across models of varying scales and
families.
Ссылки и действия
Дополнительные ресурсы: