📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Angel M. Beltre, Jeff Ogden, Kevin Pedretti
## Контекст
Область генерирующего искусственного интеллекта (Generative Artificial Intelligence, GenAI) находится в сердце современных технологических развитий, предлагая мощные средства для решения сложных задач в области глубокого обучения, текстового понимания и прогнозирования. GenAI применяется в различных сферах, включая поисковые системы, медицинское образование, финансовые рынки и искусственные телесных чувств. Однако развертывание GenAI-сервисов в средах высокопроизводительных вычислений (HPC) сталкивается с рядом проблем, такими как несовместимость сред, проблемы масштабирования и сложность интеграции. Хотя GenAI-сервисы часто развертываются в облачных средах, значительно меньше информации доступна по их развертыванию в HPC-центрах, где требуется высокая производительность и реплицируемость. Это создает мотивацию для исследования, в частности, для создания контейнеризированных GenAI-сервисов, которые могут быть эффективно развернуты в HPC-центрах.
## Метод
Развертывание GenAI-сервисов в HPC-центре было основано на создании унифицированной архитектуры, объединяющей HPC и Kubernetes платформы. Мы использовали контейнеризацию для изоляции облачных и HPC-компонентов, обеспечив их интеграцию через веб-API. Наша стратегия включала интеграцию существующих HPC-ресурсов с Kubernetes, что позволило сократить задержки и увеличить вычислительную эффективность. Мы использовали контейнерные среды, такие как Docker и CRI-O, для запуска инференс-сервисов, таких как vLLM, и для обеспечения реплицированности. Мы также интегрировали объектное хранилище, такое как MinIO, для управления векторными данными. Эта структура позволила обеспечить простоту управления, эффективность и надежность в развертывании GenAI-сервисов.
## Результаты
Мы провели эксперименты с развертыванием GenAI-сервисов, включая одно из самых популярных языковых моделей - Llama Large Language Model (LLM). Мы запускали этот модельный репозиторий как контейнеризованный образ, используя vLLM на HPC-платформе и Kubernetes. Данные эксперимента были загружены в HPC-хранилище MinIO, и мы оценивали производительность и надежность развертывания. Результаты показали, что контейнеризация обеспечивает высокую модульность и реплицируемость, уменьшая время обучения и развертывания. Мы также привели сравнение между Kubernetes и HPC-платформами, показав, что Kubernetes может быть использован для упрощения развертывания и управления GenAI-сервисами.
## Значимость
Наша работа имеет значительное значение для области вычислений, особенно в контексте HPC-центров. Мы показали, что контейнеризация может быть эффективно использована для развертывания GenAI-сервисов в
Annotation:
Generative Artificial Intelligence (GenAI) applications are built from
specialized components -- inference servers, object storage, vector and graph
databases, and user interfaces -- interconnected via web-based APIs. While
these components are often containerized and deployed in cloud environments,
such capabilities are still emerging at High-Performance Computing (HPC)
centers. In this paper, we share our experience deploying GenAI workloads
within an established HPC center, discussing the int...