RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
2509.15965v1
cs.LG, cs.AI, cs.DC
2025-09-23
Авторы:
Chao Yu, Yuanqing Wang, Zhen Guo, Hao Lin, Si Xu, Hongzhi Zang, Quanlu Zhang, Yongji Wu, Chunyang Zhu, Junhao Hu, Zixiao Huang, Mingjie Wei, Yuqing Xie, Ke Yang, Bo Dai, Zhexuan Xu, Xiangyuan Wang, Xu Fu, Zhihao Liu, Kang Chen, Weilin Liu, Gang Liu, Boxun Li, Jianlei Yang, Zhi Yang, Guohao Dai, Yu Wang
Резюме на русском
## Контекст
Reinforcement learning (RL) является ключевым развитием в области искусственного интеллекта, включая широкие приложения в области объектного мышления, агентской модели и технологий embodied intelligence. Однако, существующие системы RL часто страдают от низкой эффективности использования оборудования и медленной скорости обучения. Эти проблемы возникают в силу того, что RL-среды являются высоко-гибридными и динамичными, что приводит к неэффективному использованию ресурсов и сложностям в динамическом планировании. Эти ограничения ограничивают потенциал RL в более сложных и реалистичных сценариях. В этой работе мы рассматриваем эту проблему, предлагая RLinf, высокопроизводительную систему RL, основанную на нашем ключевом обнаружении, что главным препятствием для эффективности является формализация RL-процесса и его преобразование.
## Метод
RLinf вводит новый подход к разработке RL-систем под названием macro-to-micro flow transformation (M2Flow). Этот подход разбивает RL-процессы на легко-модулируемые части, которые последуют в композиции оптимизированных рабочих процессов. Для реализации этой трансформации, мы вводим контекст-свитчинг и эластичную операцию пайплайнинга, поддерживаемые профилирующим планированием. Эта структура позволяет RLinf адаптироваться к различным типам задач, от принципиального RL до embodied RL. Кроме того, RLinf использует адаптивную систему коммуникации, чтобы обеспечить высокую скорость обмена данными между различными узлами в системе.
## Результаты
Мы проводили подробные эксперименты на различных RL-задачах, включая объектное мышление и embodied RL. Использовались данные из различных наборов для проверки скорости обучения и эффективности использования ресурсов. Результаты показывают, что RLinf существенно превосходит состояние технологий, достигая скорости обучения от 1.1 раз до 2.13 раз выше, независимо от размера и сложности задачи. Эти результаты были получены благодаря оптимальной организации рабочего процесса, сжатым пайплайном и высоко-эффективной системе коммуникации.
## Значимость
RLinf открывает новые возможности для применения RL в широких областях, включая embodied intelligence, развитие agentic систем, и развитие новых технологий для обработки больших данных. Он обеспечивает высокую эффективность и гибкость, что позволяет использовать RL в более сложных задачах, таких как реалистичные embodied tasks. Мы видим, что RLinf может повлиять на развитие технологий, обеспечивая более эффективное использование ресурсов и повышение скорости обучения, что может привести к новым возможностям в области общего искусственного интеллекта.
## Выводы
Мы представили RLinf, высокоп
Abstract
Reinforcement learning (RL) has demonstrated immense potential in advancing
artificial general intelligence, agentic intelligence, and embodied
intelligence. However, the inherent heterogeneity and dynamicity of RL
workflows often lead to low hardware utilization and slow training on existing
systems. In this paper, we present RLinf, a high-performance RL training system
based on our key observation that the major roadblock to efficient RL training
lies in system flexibility. To maximize flexibility and efficiency, RLinf is
built atop a novel RL system design paradigm called macro-to-micro flow
transformation (M2Flow), which automatically breaks down high-level,
easy-to-compose RL workflows at both the temporal and spatial dimensions, and
recomposes them into optimized execution flows. Supported by RLinf worker's
adaptive communication capability, we devise context switching and elastic
pipelining to realize M2Flow transformation, and a profiling-guided scheduling
policy to generate optimal execution plans. Extensive evaluations on both
reasoning RL and embodied RL tasks demonstrate that RLinf consistently
outperforms state-of-the-art systems, achieving 1.1x-2.13x speedup in
end-to-end training throughput.
Ссылки и действия
Дополнительные ресурсы: