Intelligent Sampling of Extreme-Scale Turbulence Datasets for Accurate and Efficient Spatiotemporal Model Training
2508.03872v1
cs.LG, cs.AI, cs.DC
2025-08-09
Авторы:
Wesley Brewer, Murali Meena Gopalakrishnan, Matthias Maiterth, Aditya Kashi, Jong Youl Choi, Pei Zhang, Stephen Nichols, Riccardo Balin, Miles Couchman, Stephen de Bruyn Kops, P. K. Yeung, Daniel Dotson, Rohini Uma-Vaideswaran, Sarp Oral, Feiyi Wang
Резюме на русском
**Резюме**
Современные вычислительные задачи, включая обработку турбулентных данных, сталкиваются с ограничениями энергоемкости и вычислительной сложности. Это приводит к необходимости эффективных методов обработки и научного анализа таких данных. В статье предлагается SICKLE — инновационный фреймворк для уменьшения объема данных при обучении с подбором информативных выборок с помощью максимальной энтропии (MaxEnt). Фреймворк использует спарсе Sampling и адаптивные методы обучения, позволяющие поддерживать высокую точность моделей, но с меньшим потреблением ресурсов. На больших наборах данных DNS турбулентности, протестированных на Frontier, MaxEnt показал существенные выигрыши в точности моделей и энергоэффективности — до 38 раз уменьшение потребления энергии по сравнению с случайным и фазовым пространственным семплингом. Это решение демонстрирует значительный потенциал для ускорения и экономии ресурсов в обработке турбулентных данных с помощью AI.
Abstract
With the end of Moore's law and Dennard scaling, efficient training
increasingly requires rethinking data volume. Can we train better models with
significantly less data via intelligent subsampling? To explore this, we
develop SICKLE, a sparse intelligent curation framework for efficient learning,
featuring a novel maximum entropy (MaxEnt) sampling approach, scalable
training, and energy benchmarking. We compare MaxEnt with random and
phase-space sampling on large direct numerical simulation (DNS) datasets of
turbulence. Evaluating SICKLE at scale on Frontier, we show that subsampling as
a preprocessing step can improve model accuracy and substantially lower energy
consumption, with reductions of up to 38x observed in certain cases.
Ссылки и действия
Дополнительные ресурсы: