Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
2509.15157v1
cs.LG, cs.CL
2025-09-20
Авторы:
Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin
Резюме на русском
## Контекст
Настоящая работа затрагивает область применения глубокого обучения, а именно супервайзированное отображение языковых моделей (Supervised Fine-Tuning, SFT). Эта проблема возникает в ситуациях, когда необходимо отобразить знания, полученные на больших моделях, на конкретные задачи или домены. Одним из основных вызовов SFT является распределительный шум, который возникает из-за различий между распределением данных, используемых при обучении модели, и распределением данных, применяемых в реальных задачах. Этот распределительный шум может привести к увеличению вариации при обучении и ухудшению качества результатов. Данная работа адресует эту проблему, предлагая новую методологию, которая стремится активно уменьшить распределительный шум и улучшить стабильность SFT.
## Метод
Предлагаемый подход, названный **Data Rewriting for Stable Off-Policy Supervised Fine-Tuning**, представляет собой проактивную методологию для уменьшения распределительного шума. Основная идея заключается в том, чтобы продолжительность обучения нормализовать, используя данные, которые ближе всего соответствуют целевой политике. Для этого используется фреймворк, который решает задачи с помощью экспертного способа, но при этом активно выявляет неверные решения и вносит исправления. Это позволяет создавать набор данных, который более соответствует целевому распределению. Таким образом, модель обучается с меньшим распределительным шумом, что улучшает стабильность и эффективность SFT.
## Результаты
Исследования проводились на пяти различных математических задачах, для которых использовались различные модели языка. Результаты показали, что использование предложенного фреймворка приводит к существенному улучшению производительности в сравнении с классическим SFT и динамическим SFT (Dynamic Fine-Tuning). Особенно заметны повышения в производительности на задачах, где распределительный шум был достаточно сильным. Эксперименты также показали, что фреймворк существенно уменьшает вариацию и стабилизирует процесс обучения.
## Значимость
Предложенный подход может быть применен в различных областях, где требуется высокая точность и стабильность при применении языковых моделей. Например, в области математического моделирования, документации, интерпретации законодательных норм и других задачах, где требуется высококачественная генерация текста. Особым преимуществом является уменьшение вариации и улучшение стабильности обучения, что позволяет использовать модели в реальном мире более эффективно. Это может привести к значительным пользам в области прикладных задач, где SFT используется.
## Выводы
Предлагаемый подход демонстрирует значительные достижения
Abstract
Supervised fine-tuning (SFT) of large language models can be viewed as an
off-policy learning problem, where expert demonstrations come from a fixed
behavior policy while training aims to optimize a target policy. Importance
sampling is the standard tool for correcting this distribution mismatch, but
large policy gaps lead to high variance and training instability. Existing
approaches mitigate this issue using KL penalties or clipping, which passively
constrain updates rather than actively reducing the gap. We propose a simple
yet effective data rewriting framework that proactively shrinks the policy gap
by keeping correct solutions as on-policy data and rewriting incorrect ones
with guided re-solving, falling back to expert demonstrations only when needed.
This aligns the training distribution with the target policy before
optimization, reducing importance sampling variance and stabilizing off-policy
fine-tuning. Experiments on five mathematical reasoning benchmarks demonstrate
consistent and significant gains over both vanilla SFT and the state-of-the-art
Dynamic Fine-Tuning (DFT) approach. The data and code will be released at
https://github.com/NKU-HLT/Off-Policy-SFT.
Ссылки и действия
Дополнительные ресурсы: