📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Tangram: Accelerating Serverless LLM Loading through GPU Memory Reuse and Affinity

2025-12-04

Авторы:

Wenbin Zhu, Zhaoyan Shen, Zili Shao, Hongjun Dai, Feng Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Serverless Large Language Models (LLMs) have emerged as a cost-effective solution for deploying AI services by enabling a 'pay-as-you-go' pricing model through GPU resource sharing. However, cold-start latency, especially the model loading phase, has become a critical performance bottleneck, as it scales linearly with model size and severely limits the practical deployment of large-scale LLM services. This paper presents Tangram, a novel system that accelerates Serverless LLM loading through eff...

ID: 2512.01357v1 cs.DC, cs.AI, cs.AR

arXiv PDF

📄 A Scalable NorthPole System with End-to-End Vertical Integration for Low-Latency and Energy-Efficient LLM Inference

2025-11-21

Авторы:

Michael V. DeBole, Rathinakumar Appuswamy, Neil McGlohon, Brian Taba, Steven K. Esser, Filipp Akopyan, John V. Arthur, Arnon Amir, Alexander Andreopoulos, Peter J. Carlson, Andrew S. Cassidy, Pallab Datta, Myron D. Flickner, Rajamohan Gandhasri, Guillaume J. Garreau, Megumi Ito, Jennifer L. Klamo, Jeffrey A. Kusnitz, Nathaniel J. McClatchey, Jeffrey L. McKinstry, Tapan K. Nayak, Carlos Ortega Otero, Hartmut Penner, William P. Risk, Jun Sawada, Jay Sivagnaname, Daniel F. Smith, Rafael Sousa, Ignacio Terrizzano, Takanori Ueda, Trent Gray-Donald, David Cox, Dharmendra S. Modha

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A vertically integrated, end-to-end, research prototype system combines 288 NorthPole neural inference accelerator cards, offline training algorithms, a high-performance runtime stack, and a containerized inference pipeline to deliver a scalable and efficient cloud inference service. The system delivers 115 peta-ops at 4-bit integer precision and 3.7 PB/s of memory bandwidth across 18 2U servers, while consuming only 30 kW of power and weighing 730 kg in a 0.67 m^2 42U rack footprint. The system...

ID: 2511.15950v1 cs.DC, cs.AI, cs.AR

arXiv PDF

📄 GPU-Initiated Networking for NCCL

2025-11-21

Авторы:

Khaled Hamidouche, John Bachan, Pak Markthub, Peter-Jan Gootzen, Elena Agostini, Sylvain Jeaugey, Aamir Shafi, Georgios Theodorakis, Manjunath Gorentla Venkata

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Modern AI workloads, especially Mixture-of-Experts (MoE) architectures, increasingly demand low-latency, fine-grained GPU-to-GPU communication with device-side control. Traditional GPU communication follows a host-initiated model, where the CPU orchestrates all communication operations - a characteristic of the CUDA runtime. Although robust for collective operations, applications requiring tight integration of computation and communication can benefit from device-initiated communication that eli...

ID: 2511.15076v1 cs.DC, cs.AI, cs.AR, cs.LG

arXiv PDF

📄 Orders in Chaos: Enhancing Large-Scale MoE LLM Serving with Data Movement Forecasting

2025-10-09

Авторы:

Zhongkai Yu, Yue Guan, Zihao Yu, Chenyang Zhou, Shuyi Pei, Yangwook Kang, Yufei Ding, Po-An Tsai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) with Mixture of Experts (MoE) architectures achieve remarkable performance improvements, but their random expert selection mechanism introduces significant data movement overhead that becomes the dominant bottleneck in multi-unit serving systems. To forecast the patterns underlying this data movement, we conduct comprehensive data-movement-centric profiling across three state-of-the-art large-scale MoE models (200B- 671B) using over 24,000 requests spanning diverse w...

ID: 2510.05497v1 cs.DC, cs.AI, cs.AR, cs.LG

arXiv PDF

📄 Experience Deploying Containerized GenAI Services at an HPC Center

2025-09-26

Авторы:

Angel M. Beltre, Jeff Ogden, Kevin Pedretti

## Контекст Область генерирующего искусственного интеллекта (Generative Artificial Intelligence, GenAI) находится в сердце современных технологических развитий, предлагая мощные средства для решения сложных задач в области глубокого обучения, текстового понимания и прогнозирования. GenAI применяется в различных сферах, включая поисковые системы, медицинское образование, финансовые рынки и искусственные телесных чувств. Однако развертывание GenAI-сервисов в средах высокопроизводительных вычислений (HPC) сталкивается с рядом проблем, такими как несовместимость сред, проблемы масштабирования и сложность интеграции. Хотя GenAI-сервисы часто развертываются в облачных средах, значительно меньше информации доступна по их развертыванию в HPC-центрах, где требуется высокая производительность и реплицируемость. Это создает мотивацию для исследования, в частности, для создания контейнеризированных GenAI-сервисов, которые могут быть эффективно развернуты в HPC-центрах. ## Метод Развертывание GenAI-сервисов в HPC-центре было основано на создании унифицированной архитектуры, объединяющей HPC и Kubernetes платформы. Мы использовали контейнеризацию для изоляции облачных и HPC-компонентов, обеспечив их интеграцию через веб-API. Наша стратегия включала интеграцию существующих HPC-ресурсов с Kubernetes, что позволило сократить задержки и увеличить вычислительную эффективность. Мы использовали контейнерные среды, такие как Docker и CRI-O, для запуска инференс-сервисов, таких как vLLM, и для обеспечения реплицированности. Мы также интегрировали объектное хранилище, такое как MinIO, для управления векторными данными. Эта структура позволила обеспечить простоту управления, эффективность и надежность в развертывании GenAI-сервисов. ## Результаты Мы провели эксперименты с развертыванием GenAI-сервисов, включая одно из самых популярных языковых моделей - Llama Large Language Model (LLM). Мы запускали этот модельный репозиторий как контейнеризованный образ, используя vLLM на HPC-платформе и Kubernetes. Данные эксперимента были загружены в HPC-хранилище MinIO, и мы оценивали производительность и надежность развертывания. Результаты показали, что контейнеризация обеспечивает высокую модульность и реплицируемость, уменьшая время обучения и развертывания. Мы также привели сравнение между Kubernetes и HPC-платформами, показав, что Kubernetes может быть использован для упрощения развертывания и управления GenAI-сервисами. ## Значимость Наша работа имеет значительное значение для области вычислений, особенно в контексте HPC-центров. Мы показали, что контейнеризация может быть эффективно использована для развертывания GenAI-сервисов в

Annotation:

Generative Artificial Intelligence (GenAI) applications are built from specialized components -- inference servers, object storage, vector and graph databases, and user interfaces -- interconnected via web-based APIs. While these components are often containerized and deployed in cloud environments, such capabilities are still emerging at High-Performance Computing (HPC) centers. In this paper, we share our experience deploying GenAI workloads within an established HPC center, discussing the int...

ID: 2509.20603v1 cs.DC, cs.AI, cs.AR, cs.ET, cs.LG

arXiv PDF