Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

2508.05387v1 cs.LG, cs.AI 2025-08-09
Авторы:

Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные методы обучения с подкреплением (RL) для больших языковых моделей (LLMs) сталкиваются с значительными проблемами в системной эффективности и масштабируемости. Традиционные подходы к обучению RL-политик для LLMs требуют совмещения двух критических фаз — генерации траекторий (inference) и оптимизации политики (training) — на одном и том же кластере GPU. Это приводит к необходимости постоянного переключения между рабочими нагрузками, нарушая принцип single-program-multiple-data (SPMD), лежащий в основе современных распределенных систем обучения. Данная проблема особенно актуальна при работе с крупными моделями и распределенными вычислениями, где эффективное использование ресурсов является ключевым фактором. Существующие решения, такие как Verl, используют колокацию inference и training на одном кластере, что ограничивает возможности использования разнородных вычислительных ресурсов. Кроме того, сериализация этих фаз создает дополнительные узкие места, в том числе повышенную задержку и неэффективное использование ресурсов. Мотивацией данного исследования является разработка системы, которая могла бы эффективно разделять эти фазы на разных типах аппаратных платформ, сохраняя при этом высокую статистическую эффективность обучения. Решение данной проблемы позволило бы расширить область применения RL-методов, в том числе к обучению на распределенных и гетерогенных вычислительных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем была разработка система Echo, которая децентрализирует процессы генерации траекторий и обучения политик на разных типах вычислительных средах. Echo вводит два легковесных протокола синхронизации, позволяющие эффективно координатизировать работу между "inference" и "training" кластерами. Первый протокол — **секундный pull-режим** — обеспечивает периодическое обновление весов семплеров на каждом вызове API, что позволяет минимизировать биас в генерации траекторий. Второй протокол — **асинхронный push-pull-режим** — предназначен для потоковой передачи версионированных траекторий через реплей-буфер, что повышает использование аппаратных ресурсов. Архитектура Echo основывается на использовании гетерогенных сред, включая высокопроизводительные GPU-кластеры для обучения и коммерческие (commodity) ресурсы для генерации траекторий. Это позволяет разгрузить тяжеловесные вычисления на более доступные платформы, сохраняя при этом высокую эффективность обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании были проведены эксперименты на трех репрезентативных RL-задачах, используя модели Qwen3-4B, Qwen2.5-7B и Qwen3-32B. Эксперименты проводились на распределенном кластере, расположенном в различных географических регионах. Результаты показали, что Echo сопоставима по скорости сходимости и качеству финального решения с Verl, но при этом использует децентрализованные ресурсы, включая коммерческие платформы. Это демонстрирует возможность достижения высокой производительности RL-систем на распределенных и гетерогенных системах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Echo имеет широкий потенциал применения в областях, требующих больших вычислительных мощностей для обучения RL-политик, в том числе в облачных вычислениях, автономных системах и распределенных вычислительных системах. Децентрализованный подход Echo позволяет эффективно использовать доступные ресурсы, в том числе низкоуровневые коммерческие платформы, что может существенно снизить стоимость и сложность развертывания RL-систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Echo представляет собой значительный шаг вперед в области RL-систем для обучения LLMs. Она показывает, что децентрализованные и гетерогенные системы могут достигать производительности, сопоставимой с традиционными дата-центральными подходами. Будущие исследования могут фокусироваться на дальнейшей оптимизации протоколов синхронизации и расширении области применения Echo на более широкий класс задач.

Abstract

Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving statistical efficiency. Echo introduces two lightweight synchronization protocols: a sequential pull mode that refreshes sampler weights on every API call for minimal bias, and an asynchronous push-pull mode that streams version-tagged rollouts through a replay buffer to maximise hardware utilisation. Training three representative RL workloads with Qwen3-4B, Qwen2.5-7B and Qwen3-32B on a geographically distributed cluster, Echo matches a fully co-located Verl baseline in convergence speed and final reward while off-loading trajectory generation to commodity edge hardware. These promising results demonstrate that large-scale RL for LLMs could achieve datacentre-grade performance using decentralised, heterogeneous resources.

Ссылки и действия