WeChat-YATT: A Simple, Scalable and Balanced RLHF Trainer
2508.07970v2
cs.LG, cs.AI
2025-08-15
Авторы:
Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Tingfeng Xian, Haoqiang Hong, Boqi Chen, Haotao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao
Резюме на русском
## Контекст
WeChat-YATT (Yet Another Transformer Trainer in WeChat) — это простой, масштабируемый и балансированный тренер для Reinforcement Learning from Human Feedback (RLHF). Он разработан для решения проблем, связанных с масштабированием и эффективностью тренировки больших трансформеров и мультимодальных систем. Несмотря на прогрессы в технологиях RLHF, существуют значительные недостатки в системах, которые относятся к управлению большими моделями, адаптации к динамическим задачам и оптимизации вычислительных ресурсов. В частности, существующие системы часто сталкиваются с проблемами масштабируемости контроллеров и неэффективностью пайплайнов RLHF при работе с интенсивными динамическими обработками. В этом исследовании мы развиваем новую архитектуру и методологию, которые позволяют устранить эти проблемы.
## Метод
WeChat-YATT предлагает новую архитектуру, основанную на parallel controller programming model, которая упрощает работу с множеством моделей и оптимизирует процессы RLHF. Фреймворк также включает в себя dynamic placement schema, который адаптивно распределяет вычислительные ресурсы в зависимости от динамических условий обучения. Это позволяет минимизировать время простоя и повысить GPU-утилизацию. Метод предлагает эффективное управление рабочими нагрузками в трех сценариях: статических, динамических и мультимодальных. Он также использует adaptive sampling, который позволяет увеличить эффективность тренировочных процессов. Эта методология готова для масштабирования до больших моделей и интенсивных задач RLHF.
## Результаты
Мы провели эксперименты для оценки производительности WeChat-YATT в отношении существующих фреймворков RLHF. Для этого использовались различные модели и данные с большим размером. Результаты показали, что WeChat-YATT совершенно опережает современные аналоги по составным показателям: throughput, GPU-утилизации и стабильности работы. Также были проведены сценарии, в которых WeChat-YATT продемонстрировал улучшения в скорости обучения и эффективности вычислений при масштабировании моделей. Эти результаты указывают на успешное решение проблем масштабируемости и динамического распределения ресурсов.
## Значимость
WeChat-YATT может применяться в различных сценариях, включая обучение и мультимодальные системы для большого количества пользователей. Он позволяет улучшить производительность и экономить ресурсы, чтобы обучение было более эффективным и быстрым. Особенно важно, что WeChat-YATT успешно применяется для обучения моделей в рамках WeChat, что подтверждает его значимость в реальном мире. Фреймворк может стать новой стандартной платформой для RLHF с улучшенной масштабируемостью и стабильностью.
## Выводы
WeChat-YATT представляет собо
Abstract
Reinforcement Learning from Human Feedback (RLHF) has emerged as a prominent
paradigm for training large language models and multimodal systems. Despite
notable advances enabled by existing RLHF training frameworks, significant
challenges remain in scaling to complex multimodal workflows and adapting to
dynamic workloads. In particular, current systems often encounter limitations
related to controller scalability when managing large models, as well as
inefficiencies in orchestrating intricate RLHF pipelines, especially in
scenarios that require dynamic sampling and resource allocation. In this paper,
we introduce WeChat-YATT (Yet Another Transformer Trainer in WeChat), a simple,
scalable, and balanced RLHF training framework specifically designed to address
these challenges. WeChat-YATT features a parallel controller programming model
that enables flexible and efficient orchestration of complex RLHF workflows,
effectively mitigating the bottlenecks associated with centralized controller
architectures and facilitating scalability in large-scale data scenarios. In
addition, we propose a dynamic placement schema that adaptively partitions
computational resources and schedules workloads, thereby significantly reducing
hardware idle time and improving GPU utilization under variable training
conditions. We evaluate WeChat-YATT across a range of experimental scenarios,
demonstrating that it achieves substantial improvements in throughput compared
to state-of-the-art RLHF training frameworks. Furthermore, WeChat-YATT has been
successfully deployed to train models supporting WeChat product features for a
large-scale user base, underscoring its effectiveness and robustness in
real-world applications.We have open-source WeChat-YATT at
https://www.github.com/tencent/WeChat-YATT.
Ссылки и действия
Дополнительные ресурсы: