📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Experience Deploying Containerized GenAI Services at an HPC Center

2025-09-26

Авторы:

Angel M. Beltre, Jeff Ogden, Kevin Pedretti

## Контекст Область генерирующего искусственного интеллекта (Generative Artificial Intelligence, GenAI) находится в сердце современных технологических развитий, предлагая мощные средства для решения сложных задач в области глубокого обучения, текстового понимания и прогнозирования. GenAI применяется в различных сферах, включая поисковые системы, медицинское образование, финансовые рынки и искусственные телесных чувств. Однако развертывание GenAI-сервисов в средах высокопроизводительных вычислений (HPC) сталкивается с рядом проблем, такими как несовместимость сред, проблемы масштабирования и сложность интеграции. Хотя GenAI-сервисы часто развертываются в облачных средах, значительно меньше информации доступна по их развертыванию в HPC-центрах, где требуется высокая производительность и реплицируемость. Это создает мотивацию для исследования, в частности, для создания контейнеризированных GenAI-сервисов, которые могут быть эффективно развернуты в HPC-центрах. ## Метод Развертывание GenAI-сервисов в HPC-центре было основано на создании унифицированной архитектуры, объединяющей HPC и Kubernetes платформы. Мы использовали контейнеризацию для изоляции облачных и HPC-компонентов, обеспечив их интеграцию через веб-API. Наша стратегия включала интеграцию существующих HPC-ресурсов с Kubernetes, что позволило сократить задержки и увеличить вычислительную эффективность. Мы использовали контейнерные среды, такие как Docker и CRI-O, для запуска инференс-сервисов, таких как vLLM, и для обеспечения реплицированности. Мы также интегрировали объектное хранилище, такое как MinIO, для управления векторными данными. Эта структура позволила обеспечить простоту управления, эффективность и надежность в развертывании GenAI-сервисов. ## Результаты Мы провели эксперименты с развертыванием GenAI-сервисов, включая одно из самых популярных языковых моделей - Llama Large Language Model (LLM). Мы запускали этот модельный репозиторий как контейнеризованный образ, используя vLLM на HPC-платформе и Kubernetes. Данные эксперимента были загружены в HPC-хранилище MinIO, и мы оценивали производительность и надежность развертывания. Результаты показали, что контейнеризация обеспечивает высокую модульность и реплицируемость, уменьшая время обучения и развертывания. Мы также привели сравнение между Kubernetes и HPC-платформами, показав, что Kubernetes может быть использован для упрощения развертывания и управления GenAI-сервисами. ## Значимость Наша работа имеет значительное значение для области вычислений, особенно в контексте HPC-центров. Мы показали, что контейнеризация может быть эффективно использована для развертывания GenAI-сервисов в

Annotation:

Generative Artificial Intelligence (GenAI) applications are built from specialized components -- inference servers, object storage, vector and graph databases, and user interfaces -- interconnected via web-based APIs. While these components are often containerized and deployed in cloud environments, such capabilities are still emerging at High-Performance Computing (HPC) centers. In this paper, we share our experience deploying GenAI workloads within an established HPC center, discussing the int...

ID: 2509.20603v1 cs.DC, cs.AI, cs.AR, cs.ET, cs.LG

arXiv PDF