📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Tasnuva Chowdhury, Tadashi Maeno, Fatih Furkan Akman, Joseph Boudreau, Sankha Dutta, Shengyu Feng, Adolfy Hoisie, Kuan-Chieh Hsu, Raees Khan, Jaehyung Kim, Ozgur O. Kilic, Scott Klasky, Alexei Klimentov, Tatiana Korchuganova, Verena Ingrid Martinez Outschoorn, Paul Nilsson, David K. Park, Norbert Podhorszki, Yihui Ren, John Rembrandt Steele, Frédéric Suter, Sairam Sri Vatsavai, Torre Wenaus, Wei Yang, Yiming Yang, Shinjae Yoo

## Контекст Научные эксперименты в сложных и масштабных проектах часто включают в себя тысячи участников со всего мира. Эти проекты требуют постоянного расширения технологий и методов для обработки больших объемов данных. Одной из ключевых проблем является точное определение ресурсов, необходимых для каждого этапа обработки данных. Несовершенство этого процесса может привести к ошибкам, неэффективному использованию ресурсов и задержкам в анализе. Эти проблемы становятся более актуальными в условиях постоянного увеличения данных и разнообразия вычислительных возможностей. В этой статье представлена машинное-обучение-движущаяся модель для прогнозирования ресурсов в широкомасштабных научных проектах. Модель нацелена на решение проблем, связанных с ограниченным предварительным знанием о характеристиках каждого этапа процесса. Обеспечивая более точные прогнозы, модель помогает улучшить эффективность управления рабочими процессами и использования ресурсов. ## Метод Методология основывается на разработке и интеграции множества машинно-обучаемых моделей в систему управления рабочими процессами (Production and Distributed Analysis, PanDA). Эти модели используют глубокое обучение и регрессионные методы для прогнозирования ресурсов для каждого этапа обработки данных. Основной функционал включает: - **Подготовка данных**: Использование исторических данных для обучения моделей. - **Моделирование**: Использование глубоких нейронных сетей для прогнозирования времени и ресурсов для каждого этапа. - **Интеграция**: Интеграция моделей в PanDA для использования в реальном времени. Разработка методов включала обучение моделей на больших наборах данных, включающих разные сценарии обработки, для обеспечения высокой точности прогнозов. ## Результаты Эксперименты проводились на реальных научных рабочих процессах, включающих многоэтапную обработку данных. Модели показали высокую точность прогноза времени и ресурсов для каждого этапа. Например, в одном из сценариев модель уменьшила ошибку прогноза ресурсов на 20% в сравнении с существующими методами. Кроме того, проверки показали, что модели эффективно обрабатывают данные в реальном времени, дают возможность прогнозировать необходимые ресурсы с минимальными задержками и повышают общую эффективность управления рабочими процессами. ## Значимость Результаты могут быть применены в различных научных областях, где требуется оптимизация ресурсов и управление многоэтапными рабочими процессами. Например, в областях физики, биологии, инженерии и искусственного интеллекта. Модели позволяют: - Уменьшить за
Annotation:
The collaborative efforts of large communities in science experiments, often comprising thousands of global members, reflect a monumental commitment to exploration and discovery. Recently, advanced and complex data processing has gained increasing importance in science experiments. Data processing workflows typically consist of multiple intricate steps, and the precise specification of resource requirements is crucial for each step to allocate optimal resources for effective processing. Estimati...
ID: 2509.11512v1 cs.DC, cs.AI, cs.LG, 68T05, 68M14, 68W10