Proximal Supervised Fine-Tuning

2508.17784v1 cs.LG, cs.AI, cs.CL 2025-08-27

Авторы:

Wenhong Zhu, Ruobing Xie, Rui Wang, Xingwu Sun, Di Wang, Pengfei Liu

Резюме на русском

## Контекст Supervised fine-tuning (SFT) широко применяется для адаптации фундаментальных моделей к новым задачам или доменам. Однако SFT часто приводит к потере предварительных способностей моделей, что приводит к недостаточной общей жизнеспособности в новых областях. Это происходит из-за выхода моделей за рамки доверительных зон, что приводит к дестабилизации оптимизации и снижению её качества. Эта проблема громоздка в статистических задачах и задачах значений, где модель должна сохранить широкий спектр нейрологических способностей, при этом учитывая новую информацию. Для решения этой проблемы, взяв за основу подходы из reinforcement learning (RL), в частности Trust-Region Policy Optimization (TRPO) и Proximal Policy Optimization (PPO), мы предлагаем Proximal Supervised Fine-Tuning (PSFT). Этот подход улучшает стабильность оптимизации SFT и повышает её общей жизнеспособность. ## Метод PSFT расширяет SFT, используя методы из RL, в частности, trust-region. Он введет дополнительные ограничения на политику, чтобы ограничить политический drift во время fine-tuning. Архитектура PSFT основывается на введении двух главных компонент: 1) зона доверия, которая ограничивает изменения в модели, и 2) метод оптимизации, который использует оценки итеративных политик. Мы проводим SFT как специальный случай policy gradient методов с постоянными положительными прибыльными приближениями. Такую модель мы используем для моделирования ограничений и работы с большими данными в RL. Это позволяет развивать модель в процессе обучения и улучшать её общей жизнеспособность. ## Результаты Мы проводили эксперименты на широком спектре задач, включая математические задачи и задачи, связанные с значениями человека. Мы сравнивали PSFT с SFT на уровне in-domain и out-of-domain общей жизнеспособности. Результаты показали, что PSFT соответствует SFT на in-domain задачах, но выдаёт лучшие результаты на out-of-domain задачах. Более того, PSFT остаётся стабильным в процессе длительного обучения, не испытывает entropy collapse (потери энтропии), и оставляет место для дальнейшей оптимизации после окончания основного обучения. Эти результаты показывают, что PSFT предоставляет более стабильную и оптимальную модель для последующей оптимизации. ## Значимость PSFT может быть применено в различных областях, где требуется сохранение предварительных способностей моделей в новых задачах или доменах. Он имеет потенциал для улучшения общей жизнеспособности моделей в статистических задачах, включая задачи, связанные с значениями человека, такие как NLP и CV. PSFT показывает преимущества перед SFT в области общей жизнеспособности, оптимизации и контролируемого поведения в новых задачах. Это открывает новые пути для продолжения исследований в области fine-tuning, направленных на сохранение

Abstract

Supervised fine-tuning (SFT) of foundation models often leads to poor generalization, where prior capabilities deteriorate after tuning on new tasks or domains. Inspired by trust-region policy optimization (TRPO) and proximal policy optimization (PPO) in reinforcement learning (RL), we propose Proximal SFT (PSFT). This fine-tuning objective incorporates the benefits of trust-region, effectively constraining policy drift during SFT while maintaining competitive tuning. By viewing SFT as a special case of policy gradient methods with constant positive advantages, we derive PSFT that stabilizes optimization and leads to generalization, while leaving room for further optimization in subsequent post-training stages. Experiments across mathematical and human-value domains show that PSFT matches SFT in-domain, outperforms it in out-of-domain generalization, remains stable under prolonged training without causing entropy collapse, and provides a stronger foundation for the subsequent optimization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Proximal Supervised Fine-Tuning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация