Machine Learning-Driven Predictive Resource Management in Complex Science Workflows

2509.11512v1 cs.DC, cs.AI, cs.LG, 68T05, 68M14, 68W10 2025-09-17
Авторы:

Tasnuva Chowdhury, Tadashi Maeno, Fatih Furkan Akman, Joseph Boudreau, Sankha Dutta, Shengyu Feng, Adolfy Hoisie, Kuan-Chieh Hsu, Raees Khan, Jaehyung Kim, Ozgur O. Kilic, Scott Klasky, Alexei Klimentov, Tatiana Korchuganova, Verena Ingrid Martinez Outschoorn, Paul Nilsson, David K. Park, Norbert Podhorszki, Yihui Ren, John Rembrandt Steele, Frédéric Suter, Sairam Sri Vatsavai, Torre Wenaus, Wei Yang, Yiming Yang, Shinjae Yoo

Резюме на русском

## Контекст Научные эксперименты в сложных и масштабных проектах часто включают в себя тысячи участников со всего мира. Эти проекты требуют постоянного расширения технологий и методов для обработки больших объемов данных. Одной из ключевых проблем является точное определение ресурсов, необходимых для каждого этапа обработки данных. Несовершенство этого процесса может привести к ошибкам, неэффективному использованию ресурсов и задержкам в анализе. Эти проблемы становятся более актуальными в условиях постоянного увеличения данных и разнообразия вычислительных возможностей. В этой статье представлена машинное-обучение-движущаяся модель для прогнозирования ресурсов в широкомасштабных научных проектах. Модель нацелена на решение проблем, связанных с ограниченным предварительным знанием о характеристиках каждого этапа процесса. Обеспечивая более точные прогнозы, модель помогает улучшить эффективность управления рабочими процессами и использования ресурсов. ## Метод Методология основывается на разработке и интеграции множества машинно-обучаемых моделей в систему управления рабочими процессами (Production and Distributed Analysis, PanDA). Эти модели используют глубокое обучение и регрессионные методы для прогнозирования ресурсов для каждого этапа обработки данных. Основной функционал включает: - **Подготовка данных**: Использование исторических данных для обучения моделей. - **Моделирование**: Использование глубоких нейронных сетей для прогнозирования времени и ресурсов для каждого этапа. - **Интеграция**: Интеграция моделей в PanDA для использования в реальном времени. Разработка методов включала обучение моделей на больших наборах данных, включающих разные сценарии обработки, для обеспечения высокой точности прогнозов. ## Результаты Эксперименты проводились на реальных научных рабочих процессах, включающих многоэтапную обработку данных. Модели показали высокую точность прогноза времени и ресурсов для каждого этапа. Например, в одном из сценариев модель уменьшила ошибку прогноза ресурсов на 20% в сравнении с существующими методами. Кроме того, проверки показали, что модели эффективно обрабатывают данные в реальном времени, дают возможность прогнозировать необходимые ресурсы с минимальными задержками и повышают общую эффективность управления рабочими процессами. ## Значимость Результаты могут быть применены в различных научных областях, где требуется оптимизация ресурсов и управление многоэтапными рабочими процессами. Например, в областях физики, биологии, инженерии и искусственного интеллекта. Модели позволяют: - Уменьшить за

Abstract

The collaborative efforts of large communities in science experiments, often comprising thousands of global members, reflect a monumental commitment to exploration and discovery. Recently, advanced and complex data processing has gained increasing importance in science experiments. Data processing workflows typically consist of multiple intricate steps, and the precise specification of resource requirements is crucial for each step to allocate optimal resources for effective processing. Estimating resource requirements in advance is challenging due to a wide range of analysis scenarios, varying skill levels among community members, and the continuously increasing spectrum of computing options. One practical approach to mitigate these challenges involves initially processing a subset of each step to measure precise resource utilization from actual processing profiles before completing the entire step. While this two-staged approach enables processing on optimal resources for most of the workflow, it has drawbacks such as initial inaccuracies leading to potential failures and suboptimal resource usage, along with overhead from waiting for initial processing completion, which is critical for fast-turnaround analyses. In this context, our study introduces a novel pipeline of machine learning models within a comprehensive workflow management system, the Production and Distributed Analysis (PanDA) system. These models employ advanced machine learning techniques to predict key resource requirements, overcoming challenges posed by limited upfront knowledge of characteristics at each step. Accurate forecasts of resource requirements enable informed and proactive decision-making in workflow management, enhancing the efficiency of handling diverse, complex workflows across heterogeneous resources.

Ссылки и действия