From Edge to HPC: Investigating Cross-Facility Data Streaming Architectures
2509.24030v1
cs.DC, cs.AI, cs.SE
2025-10-01
Авторы:
Anjus George, Michael Brim, Christopher Zimmer, David Rogers, Sarp Oral, Zach Mayes
Резюме на русском
## Контекст
Область исследования связана с разработкой и оценкой архитектур для передачи данных между различными сервисами и центрами вычислений (facilities). Эта тема крайне важна для высокопроизводительных вычислений (HPC) и искусственного интеллекта (AI), где требуется эффективная передача больших объемов данных между различными серверами и центрами. Наибольшие проблемы возникают при передаче данных в реальном времени, так как для высокой производительности требуется минимизировать задержки и максимизировать пропускную способность системы. Существуют различные архитектуры для решения этой проблемы, но пока что не определено, какая из них лучше подходит для конкретных задач. Наша мотивация заключается в сравнении трех различных архитектур передачи данных в реальном времени, чтобы определить их преимущества и недостатки.
## Метод
Мы рассматриваем три различных архитектуры: **Direct Streaming (DTS)**, **Proxied Streaming (PRS)** и **Managed Service Streaming (MSS)**. Для каждой архитектуры описывается архитектурный подход и способ реализации. Используется **Data Streaming to HPC (DS2HPC)**, архитектурный фреймворк, который помогает реализовать эти архитектуры на практике. Также мы используем **SciStream**, инструмент для передачи данных между памятью и процессором, который подходит для высокопроизводительных вычислений. Эти архитектуры реализованы на **Advanced Computing Ecosystem (ACE)**, системе вычислений в Oak Ridge Leadership Computing Facility (OLCF). Мы проводим эксперименты с разными нагружающими рабочими процессами (workloads), которые позволяют измерить производительность каждой архитектуры в разных условиях.
## Результаты
Мы проводили симуляционные эксперименты для каждой архитектуры, измеряя такие показатели, как пропускная способность (throughput), задержка (round-trip time) и накладные расходы (overhead). Мы использовали три различных типа рабочих процессов, которые отражают различные мотивы взаимодействия в AI-HPC. Результаты показывают, что **Direct Streaming (DTS)** предоставляет минимальные задержки и наибольшую пропускную способность, что делает его наиболее эффективным в плане производительности. **Managed Service Streaming (MSS)** лучше подходит для масштабируемости и удобства развертывания, но он имеет большие затраты времени и ресурсов. **Proxied Streaming (PRS)** находится посередине, обеспечивая большую масштабируемость и высокую производительность, однако в некоторых случаях он не может достичь производительности DTS.
## Значимость
Эти исследования имеют значение для нескольких областей, включая вычисления на границах (edge computing), высокопроизводительные вычисления (HPC) и искусственный интеллект (AI). Мы показали, что **Direct Streaming** является лучшим вариантом для ситуаций, где нужно максимальное пре
Abstract
In this paper, we investigate three cross-facility data streaming
architectures, Direct Streaming (DTS), Proxied Streaming (PRS), and Managed
Service Streaming (MSS). We examine their architectural variations in data flow
paths and deployment feasibility, and detail their implementation using the
Data Streaming to HPC (DS2HPC) architectural framework and the SciStream
memory-to-memory streaming toolkit on the production-grade Advanced Computing
Ecosystem (ACE) infrastructure at Oak Ridge Leadership Computing Facility
(OLCF). We present a workflow-specific evaluation of these architectures using
three synthetic workloads derived from the streaming characteristics of
scientific workflows. Through simulated experiments, we measure streaming
throughput, round-trip time, and overhead under work sharing, work sharing with
feedback, and broadcast and gather messaging patterns commonly found in AI-HPC
communication motifs. Our study shows that DTS offers a minimal-hop path,
resulting in higher throughput and lower latency, whereas MSS provides greater
deployment feasibility and scalability across multiple users but incurs
significant overhead. PRS lies in between, offering a scalable architecture
whose performance matches DTS in most cases.
Ссылки и действия
Дополнительные ресурсы: