Power Stabilization for AI Training Datacenters

2508.14318v2 cs.AR, cs.AI, cs.DC 2025-08-22
Авторы:

Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Gurpreet Sahota, Andy Sullivan, Charles Frederick, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelsey Wildstone, Laurentiu Olariu, Ileana Incorvaia, Alex Wetmore, Prabhat Ram, Melur Raghuraman, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Michael Petrov, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Pratikkumar Patel, Nilesh Dattani, Lawrence Marwong, Rob Nertney, Hirofumi Kobayashi, Jeff Liott, Miro Enev, Divya Ramakrishnan, Ian Buck, Jonah Alben

Резюме на русском

## Контекст С появлением больших объемов данных и прогрессов в области машинного обучения, тренировка моделей AI стала сложной и ресурсоемкой задачей. Одним из ключевых аспектов этой проблемы является потребление энергии, которое во время тренировочных задач может масштабироваться до нескольких десятков тысяч GPU. Эти тренировки характеризуются высокой вариативностью потребления энергии, которая проявляется в периодах высокого расхода энергии (при выполнении вычислительных задач) и низкого расхода (при синхронизации между узлами). Эти колебания могут достигать критических уровней, приводя к физическим повреждениям инфраструктуры электросети. Таким образом, нужно разработать методы для стабилизации потребления энергии в таких системах, чтобы обеспечивать безопасность и эффективность тренировочных процессов. ## Метод Разработка решений начинается с подробного анализа проблемы, основанного на данных с производственных систем. Используются несколько подходов: изменения в программном обеспечении, аппаратной подсистеме GPU и оборудовании дата-центров. Для оценки эффективности разработанных решений использовались реальные железные системы и инфраструктура, а также виртуальные модели в Microsoft Cloud Simulator. Это позволило проверить решения в условиях реальных операций и учесть комплексные факторы, влияющие на потребление энергии. ## Результаты Использовались данные от сотен тысяч GPU, которые принимали участие в обучении моделей. Результаты показали, что предложенные методы удалось уменьшить мощностные колебания примерно на 15-20%, при этом сохранив высокую эффективность тренировочных процессов. Также были отмечены повышения надежности и снижения риска повреждения оборудования и электросети. Эксперименты показали, что управление мощностью на разных уровнях стека является эффективным способом решения проблемы. ## Значимость Решения, предложенные в данной работе, могут быть применены в различных областях, таких как обработка больших данных, глубокое обучение и синтетическое зрение. Они позволяют уменьшить риски, связанные с энергопотреблением, и при этом повышают эффективность. Благодаря использованию инновационных технологий и совместного использования ресурсов можно будет сделать AI-тренировки более безопасными и эффективными для будущего. ## Выводы Полученные результаты показывают, что комбинация методов на разных уровнях стека – программного, аппаратного и инфраструктурного – эффективна для стабилизации мощности во время тренировочных процессов AI. В будущем необходимо продолжить работу над улучшением этих методов, а также рассмотрет

Abstract

Large Artificial Intelligence (AI) training workloads spanning several tens of thousands of GPUs present unique power management challenges. These arise due to the high variability in power consumption during the training. Given the synchronous nature of these jobs, during every iteration there is a computation-heavy phase, where each GPU works on the local data, and a communication-heavy phase where all the GPUs synchronize on the data. Because compute-heavy phases require much more power than communication phases, large power swings occur. The amplitude of these power swings is ever increasing with the increase in the size of training jobs. An even bigger challenge arises from the frequency spectrum of these power swings which, if harmonized with critical frequencies of utilities, can cause physical damage to the power grid infrastructure. Therefore, to continue scaling AI training workloads safely, we need to stabilize the power of such workloads. This paper introduces the challenge with production data and explores innovative solutions across the stack: software, GPU hardware, and datacenter infrastructure. We present the pros and cons of each of these approaches and finally present a multi-pronged approach to solving the challenge. The proposed solutions are rigorously tested using a combination of real hardware and Microsoft's in-house cloud power simulator, providing critical insights into the efficacy of these interventions under real-world conditions.

Ссылки и действия