Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms
2508.05387v2
cs.LG, cs.AI
2025-08-12
Авторы:
Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan
Резюме на русском
#### Контекст
Modern RL-based post-training for large language models (LLMs) подразумевает совмещение траекторий семплирования и политики оптимизации на одном GPU кластере. Это приводит к периодической переключению между работами на основе программы и работами на основе данных, что нарушает SPMD-принцип (Single-Program-Multiple-Data), основной для современных систем распределенного обучения. Эта проблема становится значительной в связи с ростом масштаба LLMs и требования к высокой производительности. Echo предлагает решение этой проблемы, разделяя два главных этапа — инференс и обучение — по разным "внедряемым" и "обучаемым" кластерам, сохраняя статистическую эффективность. Такой подход позволяет увеличить масштабируемость и эффективно использовать разнородные ресурсы.
#### Метод
Echo представляет собой RL-систему, которая разделяет фазу инференса и тренировки на две различные сети — "внедряемый" и "обучаемый". Для этого используются два упрощенных синхронизационных протокола: последовательный pull-режим (поддерживает минимальный биас использования API) и асинхронный push-pull-режим (распространяет версионно отмеченные тренировочные траектории по реплей-буферу, чтобы оптимально использовать железо). Данные для тренировки поступают из географически распределенного кластера, что позволяет гарантировать высокую стабильность и эффективность. Такой подход позволяет сохранить высокую производительность при использовании разнородных ресурсов в центре обработки данных.
#### Результаты
Использовав Echo, были проведены эксперименты с тремя различными RL-рабочими нагрузками, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B на распределенном кластере. Результаты показали, что Echo совпадает с методом Verl по скорости конвергенции и оценке вознаграждения, при этом инференсный процесс выполняется на "внедряемых" устройствах, а тренировочный процесс — на "обучаемых". Это позволяет эффективно снизить нагрузку на главные ресурсы центра обработки данных и масштабировать систему без потери качества. Таким образом, Echo доказывает, что можно достичь высокой производительности в системах RL для LLMs с использованием распределенных, разнородных ресурсов.
#### Значимость
Результаты Echo открывают новые возможности для использования географически распределенных ресурсов в обучении LLMs. Такой подход позволяет эффективно использовать инфраструктуру, включая "внедряемые" устройства, для траекторий семплирования, а главные ресурсы — для политики оптимизации. В результате, Echo позволяет повысить масштабируемость, снизить затраты на инфраструктуру и обеспечить высокую производительность в сложных задачах RL для
Abstract
Modern RL-based post-training for large language models (LLMs) co-locate
trajectory sampling and policy optimisation on the same GPU cluster, forcing
the system to switch between inference and training workloads. This serial
context switching violates the single-program-multiple-data (SPMD) assumption
underlying today's distributed training systems. We present Echo, the RL system
that cleanly decouples these two phases across heterogeneous "inference" and
"training" swarms while preserving statistical efficiency. Echo introduces two
lightweight synchronization protocols: a sequential pull mode that refreshes
policy weights according to API call for minimal bias, and an asynchronous
push-pull mode that streams version-tagged rollouts through a replay buffer to
maximise hardware utilisation. Training three representative RL workloads with
Qwen3-4B, Qwen2.5-7B and Qwen3-32B on a geographically distributed cluster,
Echo matches a fully co-located Verl baseline in convergence speed and final
reward while off-loading trajectory generation to commodity edge hardware.
These promising results demonstrate that large-scale RL for LLMs could achieve
datacentre-grade performance using decentralised, heterogeneous resources.
Ссылки и действия
Дополнительные ресурсы: