RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation

2509.15965v1 cs.LG, cs.AI, cs.DC 2025-09-23
Авторы:

Chao Yu, Yuanqing Wang, Zhen Guo, Hao Lin, Si Xu, Hongzhi Zang, Quanlu Zhang, Yongji Wu, Chunyang Zhu, Junhao Hu, Zixiao Huang, Mingjie Wei, Yuqing Xie, Ke Yang, Bo Dai, Zhexuan Xu, Xiangyuan Wang, Xu Fu, Zhihao Liu, Kang Chen, Weilin Liu, Gang Liu, Boxun Li, Jianlei Yang, Zhi Yang, Guohao Dai, Yu Wang

Резюме на русском

## Контекст Reinforcement learning (RL) является ключевым развитием в области искусственного интеллекта, включая широкие приложения в области объектного мышления, агентской модели и технологий embodied intelligence. Однако, существующие системы RL часто страдают от низкой эффективности использования оборудования и медленной скорости обучения. Эти проблемы возникают в силу того, что RL-среды являются высоко-гибридными и динамичными, что приводит к неэффективному использованию ресурсов и сложностям в динамическом планировании. Эти ограничения ограничивают потенциал RL в более сложных и реалистичных сценариях. В этой работе мы рассматриваем эту проблему, предлагая RLinf, высокопроизводительную систему RL, основанную на нашем ключевом обнаружении, что главным препятствием для эффективности является формализация RL-процесса и его преобразование. ## Метод RLinf вводит новый подход к разработке RL-систем под названием macro-to-micro flow transformation (M2Flow). Этот подход разбивает RL-процессы на легко-модулируемые части, которые последуют в композиции оптимизированных рабочих процессов. Для реализации этой трансформации, мы вводим контекст-свитчинг и эластичную операцию пайплайнинга, поддерживаемые профилирующим планированием. Эта структура позволяет RLinf адаптироваться к различным типам задач, от принципиального RL до embodied RL. Кроме того, RLinf использует адаптивную систему коммуникации, чтобы обеспечить высокую скорость обмена данными между различными узлами в системе. ## Результаты Мы проводили подробные эксперименты на различных RL-задачах, включая объектное мышление и embodied RL. Использовались данные из различных наборов для проверки скорости обучения и эффективности использования ресурсов. Результаты показывают, что RLinf существенно превосходит состояние технологий, достигая скорости обучения от 1.1 раз до 2.13 раз выше, независимо от размера и сложности задачи. Эти результаты были получены благодаря оптимальной организации рабочего процесса, сжатым пайплайном и высоко-эффективной системе коммуникации. ## Значимость RLinf открывает новые возможности для применения RL в широких областях, включая embodied intelligence, развитие agentic систем, и развитие новых технологий для обработки больших данных. Он обеспечивает высокую эффективность и гибкость, что позволяет использовать RL в более сложных задачах, таких как реалистичные embodied tasks. Мы видим, что RLinf может повлиять на развитие технологий, обеспечивая более эффективное использование ресурсов и повышение скорости обучения, что может привести к новым возможностям в области общего искусственного интеллекта. ## Выводы Мы представили RLinf, высокоп

Abstract

Reinforcement learning (RL) has demonstrated immense potential in advancing artificial general intelligence, agentic intelligence, and embodied intelligence. However, the inherent heterogeneity and dynamicity of RL workflows often lead to low hardware utilization and slow training on existing systems. In this paper, we present RLinf, a high-performance RL training system based on our key observation that the major roadblock to efficient RL training lies in system flexibility. To maximize flexibility and efficiency, RLinf is built atop a novel RL system design paradigm called macro-to-micro flow transformation (M2Flow), which automatically breaks down high-level, easy-to-compose RL workflows at both the temporal and spatial dimensions, and recomposes them into optimized execution flows. Supported by RLinf worker's adaptive communication capability, we devise context switching and elastic pipelining to realize M2Flow transformation, and a profiling-guided scheduling policy to generate optimal execution plans. Extensive evaluations on both reasoning RL and embodied RL tasks demonstrate that RLinf consistently outperforms state-of-the-art systems, achieving 1.1x-2.13x speedup in end-to-end training throughput.

Ссылки и действия