Robust LLM Training Infrastructure at ByteDance

2509.16293v1 cs.LG, cs.AI, cs.DC 2025-09-24
Авторы:

Borui Wan, Gaohong Liu, Zuquan Song, Jun Wang, Yun Zhang, Guangming Sheng, Shuguang Wang, Houmin Wei, Chenyuan Wang, Weiqiang Lou, Xi Yang, Mofan Zhang, Kaihua Jiang, Cheng Ren, Xiaoyun Zhi, Menghan Yu, Zhe Nan, Zhuolin Zheng, Baoquan Zhong, Qinlong Wang, Huan Yu, Jinxin Chi, Wang Zhang, Yuhan Li, Zixian Du, Sida Zhao, Yongqiang Zhang, Jingzhe Tang, Zherui Liu, Chuan Wu, Yanghua Peng, Haibin Lin, Wencong Xiao, Xin Liu, Liang Xiang

Резюме на русском

## Контекст С ростом интереса к обучению бо LARGE LANGUAGE MODELS (LLMs) инфраструктура обучения достигла значительных масштабов, включая сотни тысяч GPU. Однако при таких масштабах возникает значительное количество проблем, таких как CUDA-ошибки, NaN-значения и зависания заданий, которые значительно снижают эффективность и надежность тренировочных процессов. Современные методы обучения LLMs должны учитывать эти задачи, обеспечивая высокую производительность, точность диагностики и устойчивость к ошибкам. Поэтому целью данного исследования является разработка системы управления GPU-инфраструктурой, которая обеспечивает высокую устойчивость и эффективность процесса обучения LLMs в реальном времени. ## Метод Методология разработки ByteRobust основывается на понимании уникальных характеристик процесса обучения LLMs. Используются методы автоматического диагностирования ошибок, таких как динамический мониторинг и анализ тренировочных данных. Архитектура ByteRobust включает в себя несколько модулей: модуль мониторинга, модуль распознавания ошибок и модуль восстановления. Модуль мониторинга наблюдает за процессом обучения, в том числе за состоянием GPU и статистикой процесса. Модуль распознавания ошибок использует методы машинного обучения для диагностики проблем. Модуль восстановления активируется при обнаружении ошибки и применяет методы, такие как перезапуск заданий и дедупликация данных, для быстрого восстановления. ## Результаты Удачные эксперименты проведены на платформе с более чем 200 000 GPU. Был проведен тренировочный процесс LLM на 9 600 GPU, длительностью три месяца. Был достигнут рекордный результат с 97% успешного времени до первого провала (ETTR), что значительно превышает стандартные показатели. Была также доказана эффективность ByteRobust в обнаружении и восстановлении ошибок: в 85% случаев было достигнуто мгновенное восстановление с заданий после обнаруженных проблем. ## Значимость ByteRobust может быть применен в различных областях, включая образование, медицину, финансы и искусственный интеллект. Он позволяет не только увеличить стабильность процесса обучения LLMs, но и повысить эффективность использования ресурсов. Этот подход может стать ключевым для будущих исследований в области масштабируемого обучения языковых моделей. ## Выводы На основе полученных результатов, ByteRobust продемонстрировал высокую эффективность в обнаружении и восстановлении ошибок во время обучения LLMs. Будущие исследования будут сконцентрированы на расширении функционала системы, включая улучшение методов диагностики и восстановления, а также оптимизацию и

Abstract

The training scale of large language models (LLMs) has reached tens of thousands of GPUs and is still continuously expanding, enabling faster learning of larger models. Accompanying the expansion of the resource scale is the prevalence of failures (CUDA error, NaN values, job hang, etc.), which poses significant challenges to training stability. Any large-scale LLM training infrastructure should strive for minimal training interruption, efficient fault diagnosis, and effective failure tolerance to enable highly efficient continuous training. This paper presents ByteRobust, a large-scale GPU infrastructure management system tailored for robust and stable training of LLMs. It exploits the uniqueness of LLM training process and gives top priorities to detecting and recovering failures in a routine manner. Leveraging parallelisms and characteristics of LLM training, ByteRobust enables high-capacity fault tolerance, prompt fault demarcation, and localization with an effective data-driven approach, comprehensively ensuring continuous and efficient training of LLM tasks. ByteRobust is deployed on a production GPU platform with over 200,000 GPUs and achieves 97% ETTR for a three-month training job on 9,600 GPUs.

Ссылки и действия