FlashRecovery: Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs

2509.03047v1 cs.DC, cs.AI 2025-09-05
Авторы:

Haijun Zhang, Jinxiang Wang, Zhenhua Yu, Yanyong Zhang, Xuejie Ji, Kaining Mao, Jun Zhang, Yaqing Zhang, Ting Wu, Fei Jie, Xiemin Huang, Zhifang Cai, Junhua Cheng, Shuwei Wang, Wei Li, Xiaoming Bao, Hua Xu, Shixiong Zhao, Jun Li, Hongwei Sun, Ziyang Zhang, Yi Xiong, Chunsheng Li

Резюме на русском

## Контекст Large language models (LLMs) представляют собой одно из самых мощных инструментов в современном искусственном интеллекте, применяющихся в различных областях — от трансляции и моделирования до предсказания и анализа. Однако их обучение на масштабах, необходимых для достижения высокого качества и точности, сталкивается с рядом технических проблем. В частности, проблема отказов в системе — как в железе, так и в программном обеспечении — является неизбежной частью таких масштабных предприятий. Эти отказы могут привести к ощутимым потерям во времени и ресурсах, что значительно замедляет процесс обучения. Поэтому целью исследования является разработка системы, позволяющей быстро и эффективно восстановить обучение после произошедшего отказа. ## Метод Система FlashRecovery представляет собой сложную структуру, состоящую из трех основных модулей. 1) **Активное и реальномерное мониторинговое отслеживание состояния обучения**: Эта часть системы постоянно отслеживает состояние обучения, позволяя немедленно выявить и сообщить о проблемах. 2) **Стратегия для масштабно независимой восстановления задач**: Эта часть включает в себя разные подходы к восстановлению для работающих и неисправных узлов, а также оптимизированный протокол для перестройки групп обмена данными. 3) **Механизм восстановления в одной ступени без чекпоинтов**: Это изобретение позволяет восстановить обучение за одну ступень, устраняя зависимость от традиционных методов чекпоинтов, которые часто являются ресурсоемкими и затратными. Общая цель — обеспечить минимально возможные значения Recovery Time Objective (RTO) и Recovery Point Objective (RPO). ## Результаты Проведены многочисленные эксперименты для оценки эффективности FlashRecovery. Она была испытана на кластере с 4 800 устройствами, где время восстановления после отказа составило всего 150 секунд. Это значительно меньше, чем обычно требуется для подобных операций. Также был проверен масштабируемый аспект системы — результаты показали, что время восстановления почти не зависит от масштаба обучающей задачи, что демонстрирует высокую универсальность системы. Восстановление происходит почти так же быстро независимо от того, ведется ли обучение на небольших или очень больших кластерах. ## Значимость FlashRecovery может быть применена в различных сферах, где LLMs используются для масштабного обучения. Основные преимущества — это повышение эффективности (через скорость восстановления) и надежности (через минимальные потери данных и времени). Такая система может вести к значительным экономиям в ресурсах и времени, особенно во время долгих и сложных задач обучения. Будущи

Abstract

Large language models (LLMs) have made a profound impact across various fields due to their advanced capabilities. However, training these models at unprecedented scales requires extensive AI accelerator clusters and sophisticated parallelism strategies, which pose significant challenges in maintaining system reliability over prolonged training periods. A major concern is the substantial loss of training time caused by inevitable hardware and software failures. To address these challenges, we present FlashRecovery, a fast and low-cost failure recovery system comprising three core modules: (1) Active and real-time failure detection. This module performs continuous training state monitoring, enabling immediate identification of hardware and software failures within seconds, thus ensuring rapid incident response; (2) Scale-independent task restart. By employing different recovery strategies for normal and faulty nodes, combined with an optimized communication group reconstruction protocol, our approach ensures that the recovery time remains nearly constant, regardless of cluster scale; (3) Checkpoint-free recovery within one step. Our novel recovery mechanism enables single-step restoration, completely eliminating dependence on traditional checkpointing methods and their associated overhead. Collectively, these innovations enable FlashRecovery to achieve optimal Recovery Time Objective (RTO) and Recovery Point Objective (RPO), substantially improving the reliability and efficiency of long-duration LLM training. Experimental results demonstrate that FlashRecovery system can achieve training restoration on training cluster with 4, 800 devices in 150 seconds. We also verify that the time required for failure recovery is nearly consistent for different scales of training tasks.

Ссылки и действия