HPC Digital Twins for Evaluating Scheduling Policies, Incentive Structures and their Impact on Power and Cooling

2508.20016v2 cs.DC, cs.AI, cs.ET, cs.SY, eess.SY 2025-08-29
Авторы:

Matthias Maiterth, Wesley H. Brewer, Jaya S. Kuruvella, Arunavo Dey, Tanzima Z. Islam, Kevin Menear, Dmitry Duplyakin, Rashadul Kabir, Tapasya Patki, Terry Jones, Feiyi Wang

Резюме на русском

## Контекст В цифровизированном мире, где высокопроизводительные вычисления (HPC) играют ключевую роль, системы планирования (schedulers) являются критически важными для эффективного использования ресурсов. Однако современные методы оценки этих систем ограничены, ограничиваясь либо пост-деплойментной экспериментальной оценкой, либо симуляторами, не учитывающими взаимодействие с физическими системами. Это приводит к значительным ограничениям в моделировании и эффективном прототипировании новых стратегий планирования. Мотивация заключается в развитии решений, которые позволят проводить эффективные "что если" анализы, определяя влияние параметров и стратегий на физические инфраструктуры, включая системы охлаждения и энергопотребление. ## Метод Мы предлагаем первое полностью интегрированное решение, объединяющее методологию дигитальных двойников (digital twins) с методами планирования HPC. Наша методология включает следующие этапы: (1) разработка фреймворка дигитальных двойников, расширенного для возможности планирования; (2) интеграцию данных от различных HPC-систем, доступных публично; (3) разработка системы, позволяющей интегрировать сторонние модели планирования; (4) эмпирическое исследование и оценка систем лояльности и моделей машинного обучения в контексте HPC; и (5) разработка модуля для эффективной оценки взаимодействия между планированием и оптимизацией ресурсов в физической системе. ## Результаты Мы проводили эксперименты с использованием данных от нескольких представительных HPC-систем, включая их метрики потребления питания, производительности и охлаждения. Наши результаты показали, что интеграция дигитальных двойников и моделей планирования позволяет: (1) эффективно прототипировать и оценивать новые стратегии планирования в "что если" сценариях; (2) понять влияние параметров на производительность и энергоэффективность; (3) оценивать влияние различных систем лояльности, таких как торговые преимущества и наценки за ресурсное эффективное использование; и (4) протестировать машинное обучение для автоматизированных решений в HPC. ## Значимость Наш фреймворк предоставляет ценные возможности для моделирования и прототипирования в HPC, что может привести к значительным улучшениям в управлении ресурсами. Он позволяет оценивать влияние на систему в целом, включая системы охлаждения, энергопотребление и лояльность систем. Это имеет потенциал для улучшения энергоэффективности, сокращения энергозатрат и увеличения эффективности в различных сценариях применения, включая облачные вычисления и цифровизирова

Abstract

Schedulers are critical for optimal resource utilization in high-performance computing. Traditional methods to evaluate schedulers are limited to post-deployment analysis, or simulators, which do not model associated infrastructure. In this work, we present the first-of-its-kind integration of scheduling and digital twins in HPC. This enables what-if studies to understand the impact of parameter configurations and scheduling decisions on the physical assets, even before deployment, or regarching changes not easily realizable in production. We (1) provide the first digital twin framework extended with scheduling capabilities, (2) integrate various top-tier HPC systems given their publicly available datasets, (3) implement extensions to integrate external scheduling simulators. Finally, we show how to (4) implement and evaluate incentive structures, as-well-as (5) evaluate machine learning based scheduling, in such novel digital-twin based meta-framework to prototype scheduling. Our work enables what-if scenarios of HPC systems to evaluate sustainability, and the impact on the simulated system.

Ссылки и действия