📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Rabimba Karanjai, Lei Xu, Weidong Shi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Unit testing in High-Performance Computing (HPC) is critical but challenged by parallelism, complex algorithms, and diverse hardware. Traditional methods often fail to address non-deterministic behavior and synchronization issues in HPC applications. This paper introduces HPCAgentTester, a novel multi-agent Large Language Model (LLM) framework designed to automate and enhance unit test generation for HPC software utilizing OpenMP and MPI. HPCAgentTester employs a unique collaborative workflow wh...
Авторы:
Aditya Tanikanti, Benoit Côté, Yanfei Guo, Le Chen, Nickolaus Saint, Ryan Chard, Ken Raffenetti, Rajeev Thakur, Thomas Uram, Ian Foster, Michael E. Papka, Venkatram Vishwanath
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present the Federated Inference Resource Scheduling Toolkit (FIRST), a
framework enabling Inference-as-a-Service across distributed High-Performance
Computing (HPC) clusters. FIRST provides cloud-like access to diverse AI
models, like Large Language Models (LLMs), on existing HPC infrastructure.
Leveraging Globus Auth and Globus Compute, the system allows researchers to run
parallel inference workloads via an OpenAI-compliant API on private, secure
environments. This cluster-agnostic API allo...
Авторы:
Anjus George, Michael Brim, Christopher Zimmer, David Rogers, Sarp Oral, Zach Mayes
## Контекст
Область исследования связана с разработкой и оценкой архитектур для передачи данных между различными сервисами и центрами вычислений (facilities). Эта тема крайне важна для высокопроизводительных вычислений (HPC) и искусственного интеллекта (AI), где требуется эффективная передача больших объемов данных между различными серверами и центрами. Наибольшие проблемы возникают при передаче данных в реальном времени, так как для высокой производительности требуется минимизировать задержки и максимизировать пропускную способность системы. Существуют различные архитектуры для решения этой проблемы, но пока что не определено, какая из них лучше подходит для конкретных задач. Наша мотивация заключается в сравнении трех различных архитектур передачи данных в реальном времени, чтобы определить их преимущества и недостатки.
## Метод
Мы рассматриваем три различных архитектуры: **Direct Streaming (DTS)**, **Proxied Streaming (PRS)** и **Managed Service Streaming (MSS)**. Для каждой архитектуры описывается архитектурный подход и способ реализации. Используется **Data Streaming to HPC (DS2HPC)**, архитектурный фреймворк, который помогает реализовать эти архитектуры на практике. Также мы используем **SciStream**, инструмент для передачи данных между памятью и процессором, который подходит для высокопроизводительных вычислений. Эти архитектуры реализованы на **Advanced Computing Ecosystem (ACE)**, системе вычислений в Oak Ridge Leadership Computing Facility (OLCF). Мы проводим эксперименты с разными нагружающими рабочими процессами (workloads), которые позволяют измерить производительность каждой архитектуры в разных условиях.
## Результаты
Мы проводили симуляционные эксперименты для каждой архитектуры, измеряя такие показатели, как пропускная способность (throughput), задержка (round-trip time) и накладные расходы (overhead). Мы использовали три различных типа рабочих процессов, которые отражают различные мотивы взаимодействия в AI-HPC. Результаты показывают, что **Direct Streaming (DTS)** предоставляет минимальные задержки и наибольшую пропускную способность, что делает его наиболее эффективным в плане производительности. **Managed Service Streaming (MSS)** лучше подходит для масштабируемости и удобства развертывания, но он имеет большие затраты времени и ресурсов. **Proxied Streaming (PRS)** находится посередине, обеспечивая большую масштабируемость и высокую производительность, однако в некоторых случаях он не может достичь производительности DTS.
## Значимость
Эти исследования имеют значение для нескольких областей, включая вычисления на границах (edge computing), высокопроизводительные вычисления (HPC) и искусственный интеллект (AI). Мы показали, что **Direct Streaming** является лучшим вариантом для ситуаций, где нужно максимальное пре
Annotation:
In this paper, we investigate three cross-facility data streaming
architectures, Direct Streaming (DTS), Proxied Streaming (PRS), and Managed
Service Streaming (MSS). We examine their architectural variations in data flow
paths and deployment feasibility, and detail their implementation using the
Data Streaming to HPC (DS2HPC) architectural framework and the SciStream
memory-to-memory streaming toolkit on the production-grade Advanced Computing
Ecosystem (ACE) infrastructure at Oak Ridge Leaders...