Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning

2509.15157v1 cs.LG, cs.CL 2025-09-20
Авторы:

Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin

Резюме на русском

## Контекст Настоящая работа затрагивает область применения глубокого обучения, а именно супервайзированное отображение языковых моделей (Supervised Fine-Tuning, SFT). Эта проблема возникает в ситуациях, когда необходимо отобразить знания, полученные на больших моделях, на конкретные задачи или домены. Одним из основных вызовов SFT является распределительный шум, который возникает из-за различий между распределением данных, используемых при обучении модели, и распределением данных, применяемых в реальных задачах. Этот распределительный шум может привести к увеличению вариации при обучении и ухудшению качества результатов. Данная работа адресует эту проблему, предлагая новую методологию, которая стремится активно уменьшить распределительный шум и улучшить стабильность SFT. ## Метод Предлагаемый подход, названный **Data Rewriting for Stable Off-Policy Supervised Fine-Tuning**, представляет собой проактивную методологию для уменьшения распределительного шума. Основная идея заключается в том, чтобы продолжительность обучения нормализовать, используя данные, которые ближе всего соответствуют целевой политике. Для этого используется фреймворк, который решает задачи с помощью экспертного способа, но при этом активно выявляет неверные решения и вносит исправления. Это позволяет создавать набор данных, который более соответствует целевому распределению. Таким образом, модель обучается с меньшим распределительным шумом, что улучшает стабильность и эффективность SFT. ## Результаты Исследования проводились на пяти различных математических задачах, для которых использовались различные модели языка. Результаты показали, что использование предложенного фреймворка приводит к существенному улучшению производительности в сравнении с классическим SFT и динамическим SFT (Dynamic Fine-Tuning). Особенно заметны повышения в производительности на задачах, где распределительный шум был достаточно сильным. Эксперименты также показали, что фреймворк существенно уменьшает вариацию и стабилизирует процесс обучения. ## Значимость Предложенный подход может быть применен в различных областях, где требуется высокая точность и стабильность при применении языковых моделей. Например, в области математического моделирования, документации, интерпретации законодательных норм и других задачах, где требуется высококачественная генерация текста. Особым преимуществом является уменьшение вариации и улучшение стабильности обучения, что позволяет использовать модели в реальном мире более эффективно. Это может привести к значительным пользам в области прикладных задач, где SFT используется. ## Выводы Предлагаемый подход демонстрирует значительные достижения

Abstract

Supervised fine-tuning (SFT) of large language models can be viewed as an off-policy learning problem, where expert demonstrations come from a fixed behavior policy while training aims to optimize a target policy. Importance sampling is the standard tool for correcting this distribution mismatch, but large policy gaps lead to high variance and training instability. Existing approaches mitigate this issue using KL penalties or clipping, which passively constrain updates rather than actively reducing the gap. We propose a simple yet effective data rewriting framework that proactively shrinks the policy gap by keeping correct solutions as on-policy data and rewriting incorrect ones with guided re-solving, falling back to expert demonstrations only when needed. This aligns the training distribution with the target policy before optimization, reducing importance sampling variance and stabilizing off-policy fine-tuning. Experiments on five mathematical reasoning benchmarks demonstrate consistent and significant gains over both vanilla SFT and the state-of-the-art Dynamic Fine-Tuning (DFT) approach. The data and code will be released at https://github.com/NKU-HLT/Off-Policy-SFT.

Ссылки и действия