Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

2508.05387v2 cs.LG, cs.AI 2025-08-12
Авторы:

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

Резюме на русском

#### Контекст Modern RL-based post-training for large language models (LLMs) подразумевает совмещение траекторий семплирования и политики оптимизации на одном GPU кластере. Это приводит к периодической переключению между работами на основе программы и работами на основе данных, что нарушает SPMD-принцип (Single-Program-Multiple-Data), основной для современных систем распределенного обучения. Эта проблема становится значительной в связи с ростом масштаба LLMs и требования к высокой производительности. Echo предлагает решение этой проблемы, разделяя два главных этапа — инференс и обучение — по разным "внедряемым" и "обучаемым" кластерам, сохраняя статистическую эффективность. Такой подход позволяет увеличить масштабируемость и эффективно использовать разнородные ресурсы. #### Метод Echo представляет собой RL-систему, которая разделяет фазу инференса и тренировки на две различные сети — "внедряемый" и "обучаемый". Для этого используются два упрощенных синхронизационных протокола: последовательный pull-режим (поддерживает минимальный биас использования API) и асинхронный push-pull-режим (распространяет версионно отмеченные тренировочные траектории по реплей-буферу, чтобы оптимально использовать железо). Данные для тренировки поступают из географически распределенного кластера, что позволяет гарантировать высокую стабильность и эффективность. Такой подход позволяет сохранить высокую производительность при использовании разнородных ресурсов в центре обработки данных. #### Результаты Использовав Echo, были проведены эксперименты с тремя различными RL-рабочими нагрузками, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B на распределенном кластере. Результаты показали, что Echo совпадает с методом Verl по скорости конвергенции и оценке вознаграждения, при этом инференсный процесс выполняется на "внедряемых" устройствах, а тренировочный процесс — на "обучаемых". Это позволяет эффективно снизить нагрузку на главные ресурсы центра обработки данных и масштабировать систему без потери качества. Таким образом, Echo доказывает, что можно достичь высокой производительности в системах RL для LLMs с использованием распределенных, разнородных ресурсов. #### Значимость Результаты Echo открывают новые возможности для использования географически распределенных ресурсов в обучении LLMs. Такой подход позволяет эффективно использовать инфраструктуру, включая "внедряемые" устройства, для траекторий семплирования, а главные ресурсы — для политики оптимизации. В результате, Echo позволяет повысить масштабируемость, снизить затраты на инфраструктуру и обеспечить высокую производительность в сложных задачах RL для

Abstract

Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving statistical efficiency. Echo introduces two lightweight synchronization protocols: a sequential pull mode that refreshes policy weights according to API call for minimal bias, and an asynchronous push-pull mode that streams version-tagged rollouts through a replay buffer to maximise hardware utilisation. Training three representative RL workloads with Qwen3-4B, Qwen2.5-7B and Qwen3-32B on a geographically distributed cluster, Echo matches a fully co-located Verl baseline in convergence speed and final reward while off-loading trajectory generation to commodity edge hardware. These promising results demonstrate that large-scale RL for LLMs could achieve datacentre-grade performance using decentralised, heterogeneous resources.

Ссылки и действия