Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts
2508.10123v1
cs.LG, cs.AI, cs.CL
2025-08-15
Авторы:
Maxime Heuillet, Yufei Cui, Boxing Chen, Audrey Durand, Prasanna Parthasarathi
Резюме на русском
## Контекст
Улучшение моделей языковых моделей (LLMs) в сложных областях, таких как математическое моделирование, требует эффективных методов обучения с подenом награды (Reinforcement Learning, RL). Одним из таких подходов является reinforced fine-tuning (ReFT), в котором модель генерирует несколько концовок для задачи, а затем эти концовки оцениваются с помощью ревард-функции. Хотя такой подход продемонстрировал выдающиеся результаты, его вычислительная стоимость возникает из-за необходимости многократного выполнения модели для каждой итерации обучения. Это становится особенно важно при обучении больших моделей. Мы предлагаем Nested-ReFT, новый подход к ReFT, который уменьшает вычислительные затраты за счет использования слоев модели в качестве "поведенческой" модели для генерации концовок в процессе обучения.
## Метод
Nested-ReFT использует многоуровневую архитектуру, в которой некоторые слои модели используются для генерации концовок заданий, в то время как другие слои отвечают за оценку этих концовок. Это позволяет эффективно использовать модель, не требуя генерации концовок на каждой итерации. Мы также ввели технику "динамического пропуска слоев", которая позволяет еще больше сократить вычислительные затраты. Для обеспечения точности решения мы предлагаем три варианта устранения биаса в обучении с off-policy данными, которые позволяют сохранить высокий уровень производительности.
## Результаты
Мы провели эксперименты на нескольких математических задачах и моделях различных размеров. Результаты показали, что Nested-ReFT выполняет большое количество подсчетов задач за секунду (tokens/sec) в сравнении с стандартными ReFT-методами, что демонстрирует его высокую эффективность. Также, мы проанализировали эффективность различных стратегий устранения биаса, показав, что они позволяют сохранить точность решения на уровне ReFT-методов с полной моделью.
## Значимость
Nested-ReFT открывает новые возможности для эффективного обучения моделей языковых моделей в сложных областях. Его применимость распространяется на такие области, как математическое моделирование, логические задачи и другие сложные решения, для которых требуется высокая точность и эффективность. Он обеспечивает выигрыш в скорости обучения и уменьшает количество вычислительных ресурсов, что может сделать эти модели более доступными для ученых и разработчиков.
## Выводы
Мы представили Nested-ReFT, новый эффективный подход к обучению моделей языковых моделей с использованием RL. Наши результаты показали, что использование слоев модели в качестве поведенческой модели не только уменьшает накладные расходы, но и позволяет достичь высокой точности решения. Наше исследова
Abstract
Advanced reasoning in LLMs on challenging domains like mathematical reasoning
can be tackled using verifiable rewards based reinforced fine-tuning (ReFT). In
standard ReFT frameworks, a behavior model generates multiple completions with
answers per problem, for the answer to be then scored by a reward function.
While such RL post-training methods demonstrate significant performance
improvements across challenging reasoning domains, the computational cost of
generating completions during training with multiple inference steps makes the
training cost non-trivial. To address this, we draw inspiration from off-policy
RL, and speculative decoding to introduce a novel ReFT framework, dubbed
Nested-ReFT, where a subset of layers of the target model acts as the behavior
model to generate off-policy completions during training. The behavior model
configured with dynamic layer skipping per batch during training decreases the
inference cost compared to the standard ReFT frameworks. Our theoretical
analysis shows that Nested-ReFT yields unbiased gradient estimates with
controlled variance. Our empirical analysis demonstrates improved computational
efficiency measured as tokens/sec across multiple math reasoning benchmarks and
model sizes. Additionally, we explore three variants of bias mitigation to
minimize the off-policyness in the gradient updates that allows for maintaining
performance that matches the baseline ReFT performance.
Ссылки и действия
Дополнительные ресурсы: