SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

2509.23232v1 cs.LG, cs.AI, cs.CL 2025-10-01

Авторы:

Bingshuai Liu, Ante Wang, Zijun Min, Liang Yao, Haibo Zhang, Yang Liu, Anxiang Zeng, Jinsong Su

Резюме на русском

#### Контекст Large Language Models (LLMs) широко применяются в различных областях, включая машинное обучение, обработку текстов и решение задач. Одна из ключевых задач для таких моделей — обучение с подкреплением (Reinforcement Learning, RL), которое предполагает применение верифицируемых наград (RLVR). Тем не менее, обучение моделей с помощью RLVR сталкивается с значительными вычислительными затратами, особенно в этапе роллаутов (rollout). Эта проблема становится все более актуальной при увеличении размера моделей и сложности задач. Наиболее популярные подходы, такие как параллельное выполнение задач, модификации целевых функций, использование реплей-буферов, продемонстрировали ограниченную эффективность или привлекли нежелательные побочные эффекты, такие как введение биаса. Таким образом, возникает необходимость в разработке методов, которые бы оптимизировали этот процесс без потери качества решения. #### Метод Мы предлагаем **SPEC-RL** — новую архитектуру, которая интегрирует **speculative decoding** (предсказание спекулятивного траектории) с этапом роллаутов в RL. SPEC-RL основывается на двух главных компонентах: **draft-and-verify mechanism** и **speculative prefixes**. Фундаментальная идея заключается в том, чтобы использовать предыдущие траектории роллаутов из предыдущих эпох обучения как начальные сегменты для нового роллаута. Эти сегменты (speculative prefixes) проверяются и дополняются с помощью новых данных, что позволяет избежать повторного вычисления дублирующихся участков. Таким образом, SPEC-RL ускоряет процесс роллаутов, сохраняя точность и качество решений. Это расширяет возможности RLVR, особенно для моделей с большим количеством параметров и высокой сложности задач. #### Результаты Мы провели эксперименты на нескольких задачах, включая math reasoning, generalization и смешанные задачи (math and generalization). Были использованы такие бенчмарки, как GSM8K, MATH-500, OlympiadBench, MMLU-STEM. Результаты показали, что SPEC-RL увеличивает производительность, сокращая время роллаутов в 2–3 раза в сравнении с конкурентными подходами. Это достигается без какого-либо потери качества решений или политики (policy). Таким образом, SPEC-RL демонстрирует свою эффективность в значительном сокращении вычислительных затрат при сохранении высокого качества решений. #### Значимость SPEC-RL может быть применено в различных областях, где требуется высокая производительность в RLVR, такие как обработка изображений, текстов, автоматизация процессов и даже системы управления. Одним из основных преимуществ является существенное сокращение времени вычислений, что позволяет увеличить скорость обучения и уменьшить затраты ресурсов. Это делает SPEC-RL привлекательным для применения в реальных системах, где требуется высока

Abstract

Large Language Models (LLMs) increasingly rely on reinforcement learning with verifiable rewards (RLVR) to elicit reliable chain-of-thought reasoning. However, the training process remains bottlenecked by the computationally expensive rollout stage. Existing acceleration methods-such as parallelization, objective- and data-driven modifications, and replay buffers-either incur diminishing returns, introduce bias, or overlook redundancy across iterations. We identify that rollouts from consecutive training epochs frequently share a large portion of overlapping segments, wasting computation. To address this, we propose SPEC-RL, a novel framework that integrates SPECulative decoding with the RL rollout process. SPEC-RL reuses prior trajectory segments as speculative prefixes and extends them via a draft-and-verify mechanism, avoiding redundant generation while ensuring policy consistency. Experiments on diverse math reasoning and generalization benchmarks, including GSM8K, MATH-500, OlympiadBench, MMLU-STEM, and others, demonstrate that SPEC-RL reduces rollout time by 2-3x without compromising policy quality. As a purely rollout-stage enhancement, SPEC-RL integrates seamlessly with mainstream algorithms (e.g., PPO, GRPO, DAPO), offering a general and practical path to scale RLVR for large reasoning models. Our code is available at https://github.com/ShopeeLLM/Spec-RL

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация