Авторы:
Esha Choukse, Brijesh Warrier, Scot Heath, Luz Belmont, April Zhao, Hassan Ali Khan, Brian Harry, Matthew Kappel, Russell J. Hewett, Kushal Datta, Yu Pei, Caroline Lichtenberger, John Siegler, David Lukofsky, Zaid Kahn, Gurpreet Sahota, Andy Sullivan, Charles Frederick, Hien Thai, Rebecca Naughton, Daniel Jurnove, Justin Harp, Reid Carper, Nithish Mahalingam, Srini Varkala, Alok Gautam Kumbhare, Satyajit Desai, Venkatesh Ramamurthy, Praneeth Gottumukkala, Girish Bhatia, Kelsey Wildstone, Laurentiu Olariu, Ileana Incorvaia, Alex Wetmore, Prabhat Ram, Melur Raghuraman, Mohammed Ayna, Mike Kendrick, Ricardo Bianchini, Aaron Hurst, Reza Zamani, Xin Li, Michael Petrov, Gene Oden, Rory Carmichael, Tom Li, Apoorv Gupta, Pratikkumar Patel, Nilesh Dattani, Lawrence Marwong, Rob Nertney, Hirofumi Kobayashi, Jeff Liott, Miro Enev, Divya Ramakrishnan, Ian Buck, Jonah Alben
## Контекст
С появлением больших объемов данных и прогрессов в области машинного обучения, тренировка моделей AI стала сложной и ресурсоемкой задачей. Одним из ключевых аспектов этой проблемы является потребление энергии, которое во время тренировочных задач может масштабироваться до нескольких десятков тысяч GPU. Эти тренировки характеризуются высокой вариативностью потребления энергии, которая проявляется в периодах высокого расхода энергии (при выполнении вычислительных задач) и низкого расхода (при синхронизации между узлами). Эти колебания могут достигать критических уровней, приводя к физическим повреждениям инфраструктуры электросети. Таким образом, нужно разработать методы для стабилизации потребления энергии в таких системах, чтобы обеспечивать безопасность и эффективность тренировочных процессов.
## Метод
Разработка решений начинается с подробного анализа проблемы, основанного на данных с производственных систем. Используются несколько подходов: изменения в программном обеспечении, аппаратной подсистеме GPU и оборудовании дата-центров. Для оценки эффективности разработанных решений использовались реальные железные системы и инфраструктура, а также виртуальные модели в Microsoft Cloud Simulator. Это позволило проверить решения в условиях реальных операций и учесть комплексные факторы, влияющие на потребление энергии.
## Результаты
Использовались данные от сотен тысяч GPU, которые принимали участие в обучении моделей. Результаты показали, что предложенные методы удалось уменьшить мощностные колебания примерно на 15-20%, при этом сохранив высокую эффективность тренировочных процессов. Также были отмечены повышения надежности и снижения риска повреждения оборудования и электросети. Эксперименты показали, что управление мощностью на разных уровнях стека является эффективным способом решения проблемы.
## Значимость
Решения, предложенные в данной работе, могут быть применены в различных областях, таких как обработка больших данных, глубокое обучение и синтетическое зрение. Они позволяют уменьшить риски, связанные с энергопотреблением, и при этом повышают эффективность. Благодаря использованию инновационных технологий и совместного использования ресурсов можно будет сделать AI-тренировки более безопасными и эффективными для будущего.
## Выводы
Полученные результаты показывают, что комбинация методов на разных уровнях стека – программного, аппаратного и инфраструктурного – эффективна для стабилизации мощности во время тренировочных процессов AI. В будущем необходимо продолжить работу над улучшением этих методов, а также рассмотрет
ID: 2508.14318v2
cs.AR, cs.AI, cs.DC