Towards a Unified View of Large Language Model Post-Training

2509.04419v1 cs.LG, cs.AI, cs.CL 2025-09-06

Авторы:

Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

Резюме на русском

## Контекст В последние годы широко развиваются системы генерации текстов на основе трансформеров, основанных на ло LLM (Large Language Models). Однако достичь высокого качества текстов часто требуется дополнительная обучение, который называется post-training. Этот процесс может использовать различные виды данных, таких как генерированные моделью (online) или полученные от пользователей или других моделей (offline). Исследователи часто рассматривают эти два типа данных как несовместимые. Наша работа выявляет, что обучение с помощью этих данных может быть успешно интегрировано в единую модель, что упрощает процесс обучения и улучшает результаты. ## Метод Мы разработали новый метод, который объединяет различные подходы к post-training в единую модель. Этот подход основан на формуле политического градиента, которая позволяет динамически использовать различные источники данных. Мы разработали четыре основных компонента этой формулы: маска для стабилизации, ссылочная политика, оценка преимущества и градиент логарифмической вероятности. Эти компоненты позволяют нам эффективно интегрировать различные типы данных и корректно сбалансировать доминирование примеров и источников данных. ## Результаты Мы провели эксперименты с нашим методом на шести абстрактных бенчмарках и двух базовых наборах данных. Наш новый подход, Hybrid Post-Training (HPT), показал себя лучше, чем существующие подходы, в том числе Reinforcement Learning (RL) и Supervised Fine-Tuning (SFT). Мы получили значительные улучшения в распознавании текста и генерации новых текстов, с одинаковым успехом работающий с онлайновыми и оффлайновыми данными. Абляционные исследования подтвердили эффективность каждого из компонентов нашего метода. ## Значимость Предложенный подход имеет широкое применение в области генерации текстов, в том числе в сферах, где требуется высокое качество текста, такие как роботы-консультанты и генераторы текстов. Он позволяет объединить различные источники данных, что ускоряет и упрощает процесс обучения. Это может привести к более эффективным и мощным системам генерации текстов, которые будут более устойчивыми к разным типам данных. ## Выводы Наше исследование показало, что обучение моделей после их стандартного обучения может быть эффективно интегрировано в единую модель. Мы сформулировали новый подход, который динамически выбирает между различными типами данных и позволяет стабильно улучшать качество текста. Будущие исследования будут сфокусированы на расширении этой модели для более сложных задач, таких как диалоговые системы и моделирование знаний.

Abstract

Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present the calculations of a wide spectrum of post-training approaches as the gradient of a common objective under different data distribution assumptions and various bias-variance tradeoffs. The gradient estimator is constructed with four interchangeable parts: stabilization mask, reference policy denominator, advantage estimate, and likelihood gradient. Motivated by our theoretical findings, we propose Hybrid Post-Training (HPT), an algorithm that dynamically selects different training signals. HPT is designed to yield both effective exploitation of demonstration and stable exploration without sacrificing learned reasoning patterns. We provide extensive experiments and ablation studies to verify the effectiveness of our unified theoretical framework and HPT. Across six mathematical reasoning benchmarks and two out-of-distribution suites, HPT consistently surpasses strong baselines across models of varying scales and families.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards a Unified View of Large Language Model Post-Training

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация