WeChat-YATT: A Simple, Scalable and Balanced RLHF Trainer

2508.07970v1 cs.LG, cs.AI 2025-08-13
Авторы:

Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Tingfeng Xian, Haoqiang Hong, Boqi Chen, Haotao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao

Резюме на русском

#### Контекст Reinforcement Learning from Human Feedback (RLHF) является важной методологией для обучения бо LARGE LANGUAGE MODELS (LLMs) и multimodal systems. Она позволяет моделям построить более точные и естественные ответы на запросы пользователей, используя постоянное обучение на данных, собранных в реальном времени. Несмотря на прогрессы, полученные с помощью RLHF, существуют затруднения, связанные с его масштабированием для работы с multimodal workflows, а также адаптации к динамическим условиям обучения. Существующие системы часто сталкиваются с проблемами, такими как неэффективность в использовании ресурсов и централизованные архитектуры управления. Эти проблемы приводят к задержкам, неоптимальному использованию оборудования и потерей производительности. #### Метод WeChat-YATT представляет собой простую, масштабируемую и балансированную RLHF-платформу, разработанную для решения этих проблем. Она использует параллельное управление RLHF-процессами, что позволяет эффективно оркестровать сложные топологии обучения. Динамическая схема размещения ресурсов адаптивно распределяет GPU-ресурсы и планирует задачи, минимизируя время простоя и увеличивая GPU-использование при изменении объема данных. Кроме того, WeChat-YATT использует параллельные модели взаимодействия с моделью, чтобы уменьшить время отклика и повысить эффективность обучения. #### Результаты В ходе экспериментов, проведенных на различных multimodal datasets, WeChat-YATT показал значительное увеличение пропускной способности и уменьшение времени обучения в сравнении с состояниями технологий RLHF. Использовавшиеся данные включали multimodal сигналы, такие как текст, изображения и звуковые файлы, чтобы подтвердить гибкость и сложность фреймворка. Оценка производительности показала, что WeChat-YATT существенно улучшает GPU-использование и целостность процесса обучения при работе с большими моделями и постоянным потоком данных. #### Значимость WeChat-YATT может быть применен в различных областях, включая NLP, vision-language tasks, multimodal согласования и динамическое обучение моделей. Его динамическая настройка ресурсов обеспечивает эффективность в задачах с большим объемом данных и меняющимися условиями. Это снижает затраты на оборудование и улучшает производительность в реальном времени. Фреймворк уже применяется внутри WeChat для обучения моделей, которые поддерживают функции платформы для миллионов пользователей, демонстрируя надежность и высокую производительность в реальных условиях. #### Выводы WeChat-YATT успешно обходит большинство проблем, связанных с масштабированием RLHF-процессов и динамическим распределением ресурсов. Его архитектура делает его подходящим для многомодальных приложений, которые требую

Abstract

Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent paradigm for training large language models and multimodal systems. Despite notable advances enabled by existing RLHF training frameworks, significant challenges remain in scaling to complex multimodal workflows and adapting to dynamic workloads. In particular, current systems often encounter limitations related to controller scalability when managing large models, as well as inefficiencies in orchestrating intricate RLHF pipelines, especially in scenarios that require dynamic sampling and resource allocation. In this paper, we introduce WeChat-YATT (Yet Another Transformer Trainer in WeChat), a simple, scalable, and balanced RLHF training framework specifically designed to address these challenges. WeChat-YATT features a parallel controller programming model that enables flexible and efficient orchestration of complex RLHF workflows, effectively mitigating the bottlenecks associated with centralized controller architectures and facilitating scalability in large-scale data scenarios. In addition, we propose a dynamic placement schema that adaptively partitions computational resources and schedules workloads, thereby significantly reducing hardware idle time and improving GPU utilization under variable training conditions. We evaluate WeChat-YATT across a range of experimental scenarios, demonstrating that it achieves substantial improvements in throughput compared to state-of-the-art RLHF training frameworks. Furthermore, WeChat-YATT has been successfully deployed to train models supporting WeChat product features for a large-scale user base, underscoring its effectiveness and robustness in real-world applications.

Ссылки и действия