Experience Deploying Containerized GenAI Services at an HPC Center
2509.20603v1
cs.DC, cs.AI, cs.AR, cs.ET, cs.LG
2025-09-26
Авторы:
Angel M. Beltre, Jeff Ogden, Kevin Pedretti
Резюме на русском
## Контекст
Область генерирующего искусственного интеллекта (Generative Artificial Intelligence, GenAI) находится в сердце современных технологических развитий, предлагая мощные средства для решения сложных задач в области глубокого обучения, текстового понимания и прогнозирования. GenAI применяется в различных сферах, включая поисковые системы, медицинское образование, финансовые рынки и искусственные телесных чувств. Однако развертывание GenAI-сервисов в средах высокопроизводительных вычислений (HPC) сталкивается с рядом проблем, такими как несовместимость сред, проблемы масштабирования и сложность интеграции. Хотя GenAI-сервисы часто развертываются в облачных средах, значительно меньше информации доступна по их развертыванию в HPC-центрах, где требуется высокая производительность и реплицируемость. Это создает мотивацию для исследования, в частности, для создания контейнеризированных GenAI-сервисов, которые могут быть эффективно развернуты в HPC-центрах.
## Метод
Развертывание GenAI-сервисов в HPC-центре было основано на создании унифицированной архитектуры, объединяющей HPC и Kubernetes платформы. Мы использовали контейнеризацию для изоляции облачных и HPC-компонентов, обеспечив их интеграцию через веб-API. Наша стратегия включала интеграцию существующих HPC-ресурсов с Kubernetes, что позволило сократить задержки и увеличить вычислительную эффективность. Мы использовали контейнерные среды, такие как Docker и CRI-O, для запуска инференс-сервисов, таких как vLLM, и для обеспечения реплицированности. Мы также интегрировали объектное хранилище, такое как MinIO, для управления векторными данными. Эта структура позволила обеспечить простоту управления, эффективность и надежность в развертывании GenAI-сервисов.
## Результаты
Мы провели эксперименты с развертыванием GenAI-сервисов, включая одно из самых популярных языковых моделей - Llama Large Language Model (LLM). Мы запускали этот модельный репозиторий как контейнеризованный образ, используя vLLM на HPC-платформе и Kubernetes. Данные эксперимента были загружены в HPC-хранилище MinIO, и мы оценивали производительность и надежность развертывания. Результаты показали, что контейнеризация обеспечивает высокую модульность и реплицируемость, уменьшая время обучения и развертывания. Мы также привели сравнение между Kubernetes и HPC-платформами, показав, что Kubernetes может быть использован для упрощения развертывания и управления GenAI-сервисами.
## Значимость
Наша работа имеет значительное значение для области вычислений, особенно в контексте HPC-центров. Мы показали, что контейнеризация может быть эффективно использована для развертывания GenAI-сервисов в
Abstract
Generative Artificial Intelligence (GenAI) applications are built from
specialized components -- inference servers, object storage, vector and graph
databases, and user interfaces -- interconnected via web-based APIs. While
these components are often containerized and deployed in cloud environments,
such capabilities are still emerging at High-Performance Computing (HPC)
centers. In this paper, we share our experience deploying GenAI workloads
within an established HPC center, discussing the integration of HPC and cloud
computing environments. We describe our converged computing architecture that
integrates HPC and Kubernetes platforms running containerized GenAI workloads,
helping with reproducibility. A case study illustrates the deployment of the
Llama Large Language Model (LLM) using a containerized inference server (vLLM)
across both Kubernetes and HPC platforms using multiple container runtimes. Our
experience highlights practical considerations and opportunities for the HPC
container community, guiding future research and tool development.