SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts
2509.23232v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Bingshuai Liu, Ante Wang, Zijun Min, Liang Yao, Haibo Zhang, Yang Liu, Anxiang Zeng, Jinsong Su
Резюме на русском
#### Контекст
Large Language Models (LLMs) широко применяются в различных областях, включая машинное обучение, обработку текстов и решение задач. Одна из ключевых задач для таких моделей — обучение с подкреплением (Reinforcement Learning, RL), которое предполагает применение верифицируемых наград (RLVR). Тем не менее, обучение моделей с помощью RLVR сталкивается с значительными вычислительными затратами, особенно в этапе роллаутов (rollout). Эта проблема становится все более актуальной при увеличении размера моделей и сложности задач. Наиболее популярные подходы, такие как параллельное выполнение задач, модификации целевых функций, использование реплей-буферов, продемонстрировали ограниченную эффективность или привлекли нежелательные побочные эффекты, такие как введение биаса. Таким образом, возникает необходимость в разработке методов, которые бы оптимизировали этот процесс без потери качества решения.
#### Метод
Мы предлагаем **SPEC-RL** — новую архитектуру, которая интегрирует **speculative decoding** (предсказание спекулятивного траектории) с этапом роллаутов в RL. SPEC-RL основывается на двух главных компонентах: **draft-and-verify mechanism** и **speculative prefixes**. Фундаментальная идея заключается в том, чтобы использовать предыдущие траектории роллаутов из предыдущих эпох обучения как начальные сегменты для нового роллаута. Эти сегменты (speculative prefixes) проверяются и дополняются с помощью новых данных, что позволяет избежать повторного вычисления дублирующихся участков. Таким образом, SPEC-RL ускоряет процесс роллаутов, сохраняя точность и качество решений. Это расширяет возможности RLVR, особенно для моделей с большим количеством параметров и высокой сложности задач.
#### Результаты
Мы провели эксперименты на нескольких задачах, включая math reasoning, generalization и смешанные задачи (math and generalization). Были использованы такие бенчмарки, как GSM8K, MATH-500, OlympiadBench, MMLU-STEM. Результаты показали, что SPEC-RL увеличивает производительность, сокращая время роллаутов в 2–3 раза в сравнении с конкурентными подходами. Это достигается без какого-либо потери качества решений или политики (policy). Таким образом, SPEC-RL демонстрирует свою эффективность в значительном сокращении вычислительных затрат при сохранении высокого качества решений.
#### Значимость
SPEC-RL может быть применено в различных областях, где требуется высокая производительность в RLVR, такие как обработка изображений, текстов, автоматизация процессов и даже системы управления. Одним из основных преимуществ является существенное сокращение времени вычислений, что позволяет увеличить скорость обучения и уменьшить затраты ресурсов. Это делает SPEC-RL привлекательным для применения в реальных системах, где требуется высока
Abstract
Large Language Models (LLMs) increasingly rely on reinforcement learning with
verifiable rewards (RLVR) to elicit reliable chain-of-thought reasoning.
However, the training process remains bottlenecked by the computationally
expensive rollout stage. Existing acceleration methods-such as parallelization,
objective- and data-driven modifications, and replay buffers-either incur
diminishing returns, introduce bias, or overlook redundancy across iterations.
We identify that rollouts from consecutive training epochs frequently share a
large portion of overlapping segments, wasting computation. To address this, we
propose SPEC-RL, a novel framework that integrates SPECulative decoding with
the RL rollout process. SPEC-RL reuses prior trajectory segments as speculative
prefixes and extends them via a draft-and-verify mechanism, avoiding redundant
generation while ensuring policy consistency. Experiments on diverse math
reasoning and generalization benchmarks, including GSM8K, MATH-500,
OlympiadBench, MMLU-STEM, and others, demonstrate that SPEC-RL reduces rollout
time by 2-3x without compromising policy quality. As a purely rollout-stage
enhancement, SPEC-RL integrates seamlessly with mainstream algorithms (e.g.,
PPO, GRPO, DAPO), offering a general and practical path to scale RLVR for large
reasoning models. Our code is available at https://github.com/ShopeeLLM/Spec-RL
Ссылки и действия
Дополнительные ресурсы: