Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

2508.05612v1 cs.LG, cs.AI 2025-08-08
Авторы:

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальные большие языковые модели (MLLM) являются мощным инструментом для решения задач, требующих понимания и обработки различных видов данных, таких как текст, изображения и аудио. Однако, несмотренно на их продвинутые возможности, MLLM часто сталкиваются с проблемами в области логического вывода и принятия решений, что ограничивает их эффективность в реальных приложениях. Для улучшения таких возможностей используется Reinforcement Learning (RL), который позволяет моделям улучшать свои навыки вывода после первоначального обучения. Тем не менее, существующие подходы к RL-обучению MLLM сталкиваются с двумя ключевыми проблемами: **Advantage Collapsing** и **Rollout Silencing**. **Advantage Collapsing** происходит, когда большинство преимуществ (advantages) в пакете данных сосредоточены вокруг нуля, что приводит к неэффективному обновлению градиентов и замедлению процесса обучения. **Rollout Silencing**, с другой стороны, возникает, когда со временем уменьшается доля траекторий (rollouts), которые предоставляют ненулевые градиенты, что также понижает качество обучения. Эти проблемы не только замедляют процесс обучения, но и могут привести к подходящим, но не оптимальным результатам. Для решения этих проблем, авторы предлагают новый подход, основанный на динамическом изменении структуры траекторий и композиции пакетов данных. Этот подход называется **Shuffle-R1** и направлен на повышение эффективности RL-обучения MLLM за счет улучшения качества градиентных сигналов и повышения экспозиции ценных траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД **Shuffle-R1** представляет собой фреймворк, который улучшает эффективность RL-обучения MLLM путем динамического изменения способа выбора и композиции траекторий. Фреймворк состоит из двух основных компонентов: **Pairwise Trajectory Sampling** и **Advantage-based Trajectory Shuffle**. **Pairwise Trajectory Sampling** — это метод выбора траекторий, который фокусируется на выборе пар траекторий с высоким контрастом, т.е. траекторий, которые имеют значительные различия в их преимуществах (advantages). Это позволяет улучшить качество градиентных сигналов, поскольку высококонтрастные траектории обеспечивают более информативные обновления весов модели. **Advantage-based Trajectory Shuffle**, с другой стороны, предназначен для динамического перемешивания траекторий в пакете на основе их преимуществ. Этот метод позволяет увеличить вероятность того, что ценные траектории будут включены в пакет и будут иметь больший вес в процессе обучения. Это помогает предотвратить **Rollout Silencing**, поскольку ценные траектории не будут утрачены из-за недостаточного представления в пакете. Общая архитектура **Shuffle-R1** является простой, но эффективной. Она не требует сложных модификаций в существующей архитектуре MLLM и может быть легко интегрирована в существующие RL-пайплайны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность **Shuffle-R1**, авторы провели серию экспериментов на различных реальных данных и задачах разумения (reasoning benchmarks). Эти эксперименты включали задачи, требующие сложного вывода и обработки мультимодальных данных. Результаты показали, что **Shuffle-R1** значительно превосходит существующие RL-базовые модели в терминах эффективности обучения и качества получаемых результатов. Фреймворк успешно справился с проблемами **Advantage Collapsing** и **Rollout Silencing**, что привело к более эффективным обновлениям градиентов и быстрому схождению модели. Кроме того, **Shuffle-R1** показал значительное улучшение в терминах качества вывода и точности решений на различных задачах. Эти результаты подтверждают, что динамическое изменение структуры траекторий и пакетов данных может значительно повысить эффективность RL-обучения MLLM. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **Shuffle-R1** лежат в его способности улучшить эффективность RL-обучения MLLM без необходимости существенных изменений в их архитектуре. Это делает его применимым к широкому кругу задач, где требуется высокое качество логического вывода и обработки мультимодальных данных. Фреймворк может быть применен в таких областях, как **компьютервизионные системы**, **робототехника**, и **поддержка принятия решений**, где MLLM используются для обработки сложных задач. Кроме того, он может быть полезен в областях, где эффективное обучение играет ключевую роль, таких как **медицинские диагностические системы** и **финансовые прогнозы**. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Shuffle-R1**, который решает ключевые проблемы в RL-обучении MLLM, такие как **Advantage Collapsing** и **Rollout Silencing**. Эксперименты показали, что этот подход может значительно улучшить эффективность обучения и качество результатов. В будущем, дальнейшие исследования могут фокусироваться на дальнейшем улучшении эффективности RL-обучения для MLLM, включая исследование новых методов динамического изменения траекторий и пакетов данных. Кроме того, можно рассмотреть возможность применения **Shuffle-R1** к другим типам моделей и задач, чтобы оценить его универсальность.

Abstract

Reinforcement learning (RL) has emerged as an effective post-training paradigm for enhancing the reasoning capabilities of multimodal large language model (MLLM). However, current RL pipelines often suffer from training inefficiencies caused by two underexplored issues: Advantage Collapsing, where most advantages in a batch concentrate near zero, and Rollout Silencing, where the proportion of rollouts contributing non-zero gradients diminishes over time. These issues lead to suboptimal gradient updates and hinder long-term learning efficiency. To address these issues, we propose Shuffle-R1, a simple yet principled framework that improves RL fine-tuning efficiency by dynamically restructuring trajectory sampling and batch composition. It introduces (1) Pairwise Trajectory Sampling, which selects high-contrast trajectories with large advantages to improve gradient signal quality, and (2) Advantage-based Trajectory Shuffle, which increases exposure of valuable rollouts through informed batch reshuffling. Experiments across multiple reasoning benchmarks show that our framework consistently outperforms strong RL baselines with minimal overhead. These results highlight the importance of data-centric adaptations for more efficient RL training in MLLM.

Ссылки и действия