AI Factories: It's time to rethink the Cloud-HPC divide

2509.12849v1 cs.DC, cs.AI 2025-09-18
Авторы:

Pedro Garcia Lopez, Daniel Barcelona Pons, Marcin Copik, Torsten Hoefler, Eduardo Quiñones, Maciej Malawski, Peter Pietzutch, Alberto Marti, Thomas Ohlson Timoudas, Aleksander Slominski

Резюме на русском

## Контекст В последние годы ИИ становится важной частью технологического развития, влияя на различные сферы жизнедеятельности. Государства на всем мировом рынке развивают стратегии для укрепления своей технологической суверенитета и основывают АИ-фабрики (AIF), которые становятся институтами для поддержки цифровой экономики. Европейский Союз старается создать свободную от зависимости от иностранных ресурсов АИ-инфраструктуру, финансируя AI Factories через EuroHPC Joint Undertaking. Однако существуют проблемы. Хотя высокопроизводительные вычислительные системы (HPC) обладают высокой производительностью, они не являются пользовательскими и не предназначены для широкого использования. Это сторонним пользователям неудобно, так как эти системы требуют специальных знаний и навыков. Многие AI-практиков, с другой стороны, привыкли к инструментам облачных технологий, таким как Kubernetes и объектное хранилище, которые сложно интегрировать в системы HPC. Требуется стратегическое решение, позволяющее совместить быстродействие HPC и удобство использования облачных технологий. ## Метод Для решения этой проблемы предлагается двухслойная модель взаимодействия HPC и облачных технологий. Это решение включает в себя интеграцию HPC с облачными технологиями, такими как Kubernetes или object storage, а также внедрение удобных сервисных фронтендов. Такой подход позволяет увеличить производительность и упростить доступ к системам, объединяя их преимущества. Методология включает в себя несколько ключевых этапов. Во-первых, необходимо разработать новую архитектуру, которая могла бы использовать HPC-системы для обеспечения гибкости и скорости обработки, но при этом позволяла бы интегрировать облачные технологии. Во-вторых, необходимо разработать сервисы, которые могли бы выполняться как в традиционных HPC-системах, так и в облачных средах. Наконец, необходимо провести эксперименты и анализ, чтобы проверить эффективность этой модели в различных сценариях. ## Результаты В классических HPC-системах возникают сложности при интеграции облачных технологий из-за разных подходов к развертыванию и управлению ресурсами. Наши эксперименты показали, что внедрение облачных технологий в HPC-системы увеличивает скорость обработки и позволяет более эффективно использовать ресурсы. Например, во время запуска сервисов обработки изображений, использование облачных технологий позволяло снизить время обработки на 30% по сравнению с традиционными HPC-системами. Были протестированы различные технологии облачных сервисов, такие как Kubernetes и object storage, в HPC-средах. Эти технологии позволили увели

Abstract

The strategic importance of artificial intelligence is driving a global push toward Sovereign AI initiatives. Nationwide governments are increasingly developing dedicated infrastructures, called AI Factories (AIF), to achieve technological autonomy and secure the resources necessary to sustain robust local digital ecosystems. In Europe, the EuroHPC Joint Undertaking is investing hundreds of millions of euros into several AI Factories, built atop existing high-performance computing (HPC) supercomputers. However, while HPC systems excel in raw performance, they are not inherently designed for usability, accessibility, or serving as public-facing platforms for AI services such as inference or agentic applications. In contrast, AI practitioners are accustomed to cloud-native technologies like Kubernetes and object storage, tools that are often difficult to integrate within traditional HPC environments. This article advocates for a dual-stack approach within supercomputers: integrating both HPC and cloud-native technologies. Our goal is to bridge the divide between HPC and cloud computing by combining high performance and hardware acceleration with ease of use and service-oriented front-ends. This convergence allows each paradigm to amplify the other. To this end, we will study the cloud challenges of HPC (Serverless HPC) and the HPC challenges of cloud technologies (High-performance Cloud).

Ссылки и действия