HPC Digital Twins for Evaluating Scheduling Policies, Incentive Structures and their Impact on Power and Cooling
2508.20016v2
cs.DC, cs.AI, cs.ET, cs.SY, eess.SY
2025-08-29
Авторы:
Matthias Maiterth, Wesley H. Brewer, Jaya S. Kuruvella, Arunavo Dey, Tanzima Z. Islam, Kevin Menear, Dmitry Duplyakin, Rashadul Kabir, Tapasya Patki, Terry Jones, Feiyi Wang
Резюме на русском
## Контекст
В цифровизированном мире, где высокопроизводительные вычисления (HPC) играют ключевую роль, системы планирования (schedulers) являются критически важными для эффективного использования ресурсов. Однако современные методы оценки этих систем ограничены, ограничиваясь либо пост-деплойментной экспериментальной оценкой, либо симуляторами, не учитывающими взаимодействие с физическими системами. Это приводит к значительным ограничениям в моделировании и эффективном прототипировании новых стратегий планирования. Мотивация заключается в развитии решений, которые позволят проводить эффективные "что если" анализы, определяя влияние параметров и стратегий на физические инфраструктуры, включая системы охлаждения и энергопотребление.
## Метод
Мы предлагаем первое полностью интегрированное решение, объединяющее методологию дигитальных двойников (digital twins) с методами планирования HPC. Наша методология включает следующие этапы: (1) разработка фреймворка дигитальных двойников, расширенного для возможности планирования; (2) интеграцию данных от различных HPC-систем, доступных публично; (3) разработка системы, позволяющей интегрировать сторонние модели планирования; (4) эмпирическое исследование и оценка систем лояльности и моделей машинного обучения в контексте HPC; и (5) разработка модуля для эффективной оценки взаимодействия между планированием и оптимизацией ресурсов в физической системе.
## Результаты
Мы проводили эксперименты с использованием данных от нескольких представительных HPC-систем, включая их метрики потребления питания, производительности и охлаждения. Наши результаты показали, что интеграция дигитальных двойников и моделей планирования позволяет: (1) эффективно прототипировать и оценивать новые стратегии планирования в "что если" сценариях; (2) понять влияние параметров на производительность и энергоэффективность; (3) оценивать влияние различных систем лояльности, таких как торговые преимущества и наценки за ресурсное эффективное использование; и (4) протестировать машинное обучение для автоматизированных решений в HPC.
## Значимость
Наш фреймворк предоставляет ценные возможности для моделирования и прототипирования в HPC, что может привести к значительным улучшениям в управлении ресурсами. Он позволяет оценивать влияние на систему в целом, включая системы охлаждения, энергопотребление и лояльность систем. Это имеет потенциал для улучшения энергоэффективности, сокращения энергозатрат и увеличения эффективности в различных сценариях применения, включая облачные вычисления и цифровизирова
Abstract
Schedulers are critical for optimal resource utilization in high-performance
computing. Traditional methods to evaluate schedulers are limited to
post-deployment analysis, or simulators, which do not model associated
infrastructure. In this work, we present the first-of-its-kind integration of
scheduling and digital twins in HPC. This enables what-if studies to understand
the impact of parameter configurations and scheduling decisions on the physical
assets, even before deployment, or regarching changes not easily realizable in
production. We (1) provide the first digital twin framework extended with
scheduling capabilities, (2) integrate various top-tier HPC systems given their
publicly available datasets, (3) implement extensions to integrate external
scheduling simulators. Finally, we show how to (4) implement and evaluate
incentive structures, as-well-as (5) evaluate machine learning based
scheduling, in such novel digital-twin based meta-framework to prototype
scheduling. Our work enables what-if scenarios of HPC systems to evaluate
sustainability, and the impact on the simulated system.