Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
2509.15157v2
cs.LG, cs.CL
2025-09-22
Авторы:
Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin
Резюме на русском
## Контекст
Supervised fine-tuning (SFT) стал приоритетным подходом для настройки больших моделей языковых моделей. Он требует набора данных, содержащих демонстрации эксперта (базовой политики), которые традиционно используются для оценки модели в процессе обучения. Однако существуют проблемы, связанные с разным размером политик: проблема политического пространства, разница в мотивации и разрыв в данных. Эти проблемы могут привести к высокой ошибке, высокой вариативности и нестабильности в процессе обучения. Таким образом, есть сильная систематическая мотивация для создания методологий, которые просто и эффективно смогут свести разрыв между политиками.
## Метод
Мы предлагаем фреймворк "Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning", который активно сводит разрыв между политиками перед началом обучения. Наш фреймворк делится на две основные части. В первой части мы используем модель для решения задач в процессе обучения: корректные демонстрации хранятся как "on-policy" данные, а неверные ответы переписываются через направленное решение. Во второй части мы применяем классический метод импортных выборок для уменьшения разрыва, когда обучение не может быть выполнено на основе самостоятельных моделей. Это двухэтапный подход, оптимизирующий обучение и сжимающий разрыв между политиками, что приводит к улучшенной стабильности и уменьшению вариативности.
## Результаты
Мы проводим эксперименты на пяти математических бенчмарках, включая GSM8K, SVAMP, A-EQUIV, A-N-EQUIV, и A-EXP-EQUIV. Для каждого бенчмарка мы перестраиваем модель, как в тестировании, так и в обучении, используя наши методы. Мы установили, что метод "Mind the Gap" позволяет получить стабильные и лучшие результаты в сравнении с текущими лучшими решениями, в том числе Dynamic Fine-Tuning (DFT). Также мы показываем, что применение нашего метода приводит к снижению ошибки и высокой вариативности во время обучения, что является ключевым для создания надежной модели.
## Значимость
Предлагаемый подход имеет широкие применения в ситуациях, где требуется уменьшить разрыв между политиками, таких как моделирование сложных задач, в том числе лингвистические задачи и математическое моделирование. Наш фреймворк демонстрирует значительные преимущества в сравнении с классическими методами, включая возможность применения к большим моделям. Этот подход может стать ключевым инструментом для развития моделей, улучшения их точности и надежности при работе с разными типами задач.
## Выводы
Мы представили "Mind the Gap", фреймворк, который активно уменьшает разрыв между политиками в процессе обучения. Наши эксперименты показали значительное улучшение в сравнении с нынешними лу
Abstract
Supervised fine-tuning (SFT) of large language models can be viewed as an
off-policy learning problem, where expert demonstrations come from a fixed
behavior policy while training aims to optimize a target policy. Importance
sampling is the standard tool for correcting this distribution mismatch, but
large policy gaps lead to skewed weights, high variance, and unstable
optimization. Existing methods mitigate this issue with KL penalties or
clipping, which passively restrict updates rather than actively reducing the
gap. We propose a simple yet effective data rewriting framework that
proactively shrinks the policy gap before training. For each problem, correct
model-generated solutions are kept as on-policy data, while incorrect ones are
rewritten through guided re-solving, falling back to expert demonstrations only
when needed. This aligns the training distribution with the target policy,
reducing variance and improving stability. To handle residual mismatch after
rewriting, we additionally apply importance sampling during training, forming a
two-stage approach that combines data-level alignment with lightweight
optimization-level correction. Experiments on five mathematical reasoning
benchmarks show consistent and significant gains over both vanilla SFT and the
state-of-the-art Dynamic Fine-Tuning (DFT) approach. Data and code will be
released at https://github.com/NKU-HLT/Off-Policy-SFT.
Ссылки и действия
Дополнительные ресурсы: