Single-stream Policy Optimization

2509.13232v1 cs.LG, cs.AI, stat.ML 2025-09-18
Авторы:

Zhongwen Xu, Zihan Ding

Резюме на русском

## Контекст Политические оптимизации служат основополагающим методам для обучения бо LARGE LANGUAGE MODELS (LLMs). Однако существующие подходы, такие как GRPO, сталкиваются с рядом проблем. Например, использование на-лету базисных значений позволяет снизить дисперсию, но часто приводит к вырожденным группам, которые лишаются обучающих сигналов. Более того, синхронизационные барьеры мешают масштабированию этих методов, особенно в сценариях, где размер батча или длина генерации варьируется. Эти ограничения приводят к затуханию обучающих сигналов и снижению эффективности. Однако возрастающий интерес к LLMs в задачах, таких как принятие решений, логическое моделирование и инструментальное развитие, подчеркивает необходимость эффективных, масштабируемых и устойчивых политических оптимизаций. Таким образом, необходим подход, который избавится от этих ограничений и обеспечит более стабильный и эффективный процесс обучения. ## Метод Мы предлагаем **Single-stream Policy Optimization (SPO)**, который представляет собой новый подход к политической оптимизации для LLMs. SPO заменяет на-лету базисные значения на постоянный, адаптивный треккер величины KL. Этот треккер гарантирует низкую дисперсию в представлении приближения, нормализовав приближения в соответствии с глобальными стандартами за один проход. Он также устраняет синхронизационные барьеры, позволяя работать с большими батчами и длинными генерационными задачами. Используя постоянную трассировку величины, SPO также включает в себя принцип адаптивной курсивизации, что позволяет приоритетно выбирать образцы в задачах обучения. Вычислительная эффективность SPO достигается благодаря его модульной архитектуре, которая отказывается от ненужных групповых структур и внедряет принципы глобального нормалирования. ## Результаты Мы проверили SPO на Qwen3-8B, тестируя его на пяти сложных задачах математики. SPO показал более сглаженный спуск и вышеуровневые результаты по отношению к GRPO. Например, на BRUMO 25 он повысил average maj@32 на +3.4 pp, на AIME 25 на +4.4 pp, на HMMT 25 на +3.3 pp. Эти результаты были поддержаны значительными повышениями в pass@$k$, показывая его эффективность в сложных сценариях. Эти результаты также подтверждают, что SPO превосходит GRPO не только в высоком масштабировании, но и в стабильности обучения. Благодаря исключению вырожденных групп и эффективной нормализации, SPO обеспечивает более надежное и высокопоточное тренирование по сравнению с существующими методами. ## Значимость SPO может быть применен в различных обла

Abstract

We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@$k$ across the evaluated $k$ values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.

Ссылки и действия