Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning

2509.15157v2 cs.LG, cs.CL 2025-09-22
Авторы:

Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin

Резюме на русском

## Контекст Supervised fine-tuning (SFT) стал приоритетным подходом для настройки больших моделей языковых моделей. Он требует набора данных, содержащих демонстрации эксперта (базовой политики), которые традиционно используются для оценки модели в процессе обучения. Однако существуют проблемы, связанные с разным размером политик: проблема политического пространства, разница в мотивации и разрыв в данных. Эти проблемы могут привести к высокой ошибке, высокой вариативности и нестабильности в процессе обучения. Таким образом, есть сильная систематическая мотивация для создания методологий, которые просто и эффективно смогут свести разрыв между политиками. ## Метод Мы предлагаем фреймворк "Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning", который активно сводит разрыв между политиками перед началом обучения. Наш фреймворк делится на две основные части. В первой части мы используем модель для решения задач в процессе обучения: корректные демонстрации хранятся как "on-policy" данные, а неверные ответы переписываются через направленное решение. Во второй части мы применяем классический метод импортных выборок для уменьшения разрыва, когда обучение не может быть выполнено на основе самостоятельных моделей. Это двухэтапный подход, оптимизирующий обучение и сжимающий разрыв между политиками, что приводит к улучшенной стабильности и уменьшению вариативности. ## Результаты Мы проводим эксперименты на пяти математических бенчмарках, включая GSM8K, SVAMP, A-EQUIV, A-N-EQUIV, и A-EXP-EQUIV. Для каждого бенчмарка мы перестраиваем модель, как в тестировании, так и в обучении, используя наши методы. Мы установили, что метод "Mind the Gap" позволяет получить стабильные и лучшие результаты в сравнении с текущими лучшими решениями, в том числе Dynamic Fine-Tuning (DFT). Также мы показываем, что применение нашего метода приводит к снижению ошибки и высокой вариативности во время обучения, что является ключевым для создания надежной модели. ## Значимость Предлагаемый подход имеет широкие применения в ситуациях, где требуется уменьшить разрыв между политиками, таких как моделирование сложных задач, в том числе лингвистические задачи и математическое моделирование. Наш фреймворк демонстрирует значительные преимущества в сравнении с классическими методами, включая возможность применения к большим моделям. Этот подход может стать ключевым инструментом для развития моделей, улучшения их точности и надежности при работе с разными типами задач. ## Выводы Мы представили "Mind the Gap", фреймворк, который активно уменьшает разрыв между политиками в процессе обучения. Наши эксперименты показали значительное улучшение в сравнении с нынешними лу

Abstract

Supervised fine-tuning (SFT) of large language models can be viewed as an off-policy learning problem, where expert demonstrations come from a fixed behavior policy while training aims to optimize a target policy. Importance sampling is the standard tool for correcting this distribution mismatch, but large policy gaps lead to skewed weights, high variance, and unstable optimization. Existing methods mitigate this issue with KL penalties or clipping, which passively restrict updates rather than actively reducing the gap. We propose a simple yet effective data rewriting framework that proactively shrinks the policy gap before training. For each problem, correct model-generated solutions are kept as on-policy data, while incorrect ones are rewritten through guided re-solving, falling back to expert demonstrations only when needed. This aligns the training distribution with the target policy, reducing variance and improving stability. To handle residual mismatch after rewriting, we additionally apply importance sampling during training, forming a two-stage approach that combines data-level alignment with lightweight optimization-level correction. Experiments on five mathematical reasoning benchmarks show consistent and significant gains over both vanilla SFT and the state-of-the-art Dynamic Fine-Tuning (DFT) approach. Data and code will be released at https://github.com/NKU-HLT/Off-Policy-SFT.

Ссылки и действия