Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts

2508.10123v1 cs.LG, cs.AI, cs.CL 2025-08-15
Авторы:

Maxime Heuillet, Yufei Cui, Boxing Chen, Audrey Durand, Prasanna Parthasarathi

Резюме на русском

## Контекст Улучшение моделей языковых моделей (LLMs) в сложных областях, таких как математическое моделирование, требует эффективных методов обучения с подenом награды (Reinforcement Learning, RL). Одним из таких подходов является reinforced fine-tuning (ReFT), в котором модель генерирует несколько концовок для задачи, а затем эти концовки оцениваются с помощью ревард-функции. Хотя такой подход продемонстрировал выдающиеся результаты, его вычислительная стоимость возникает из-за необходимости многократного выполнения модели для каждой итерации обучения. Это становится особенно важно при обучении больших моделей. Мы предлагаем Nested-ReFT, новый подход к ReFT, который уменьшает вычислительные затраты за счет использования слоев модели в качестве "поведенческой" модели для генерации концовок в процессе обучения. ## Метод Nested-ReFT использует многоуровневую архитектуру, в которой некоторые слои модели используются для генерации концовок заданий, в то время как другие слои отвечают за оценку этих концовок. Это позволяет эффективно использовать модель, не требуя генерации концовок на каждой итерации. Мы также ввели технику "динамического пропуска слоев", которая позволяет еще больше сократить вычислительные затраты. Для обеспечения точности решения мы предлагаем три варианта устранения биаса в обучении с off-policy данными, которые позволяют сохранить высокий уровень производительности. ## Результаты Мы провели эксперименты на нескольких математических задачах и моделях различных размеров. Результаты показали, что Nested-ReFT выполняет большое количество подсчетов задач за секунду (tokens/sec) в сравнении с стандартными ReFT-методами, что демонстрирует его высокую эффективность. Также, мы проанализировали эффективность различных стратегий устранения биаса, показав, что они позволяют сохранить точность решения на уровне ReFT-методов с полной моделью. ## Значимость Nested-ReFT открывает новые возможности для эффективного обучения моделей языковых моделей в сложных областях. Его применимость распространяется на такие области, как математическое моделирование, логические задачи и другие сложные решения, для которых требуется высокая точность и эффективность. Он обеспечивает выигрыш в скорости обучения и уменьшает количество вычислительных ресурсов, что может сделать эти модели более доступными для ученых и разработчиков. ## Выводы Мы представили Nested-ReFT, новый эффективный подход к обучению моделей языковых моделей с использованием RL. Наши результаты показали, что использование слоев модели в качестве поведенческой модели не только уменьшает накладные расходы, но и позволяет достичь высокой точности решения. Наше исследова

Abstract

Advanced reasoning in LLMs on challenging domains like mathematical reasoning can be tackled using verifiable rewards based reinforced fine-tuning (ReFT). In standard ReFT frameworks, a behavior model generates multiple completions with answers per problem, for the answer to be then scored by a reward function. While such RL post-training methods demonstrate significant performance improvements across challenging reasoning domains, the computational cost of generating completions during training with multiple inference steps makes the training cost non-trivial. To address this, we draw inspiration from off-policy RL, and speculative decoding to introduce a novel ReFT framework, dubbed Nested-ReFT, where a subset of layers of the target model acts as the behavior model to generate off-policy completions during training. The behavior model configured with dynamic layer skipping per batch during training decreases the inference cost compared to the standard ReFT frameworks. Our theoretical analysis shows that Nested-ReFT yields unbiased gradient estimates with controlled variance. Our empirical analysis demonstrates improved computational efficiency measured as tokens/sec across multiple math reasoning benchmarks and model sizes. Additionally, we explore three variants of bias mitigation to minimize the off-policyness in the gradient updates that allows for maintaining performance that matches the baseline ReFT performance.

Ссылки и действия