Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
2508.19559v1
cs.DC, cs.AI
2025-08-29
Авторы:
Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu
Резюме на русском
#### Контекст
Построение и поддержание сервисов Large Language Models (LLMs) потребляют большие ресурсы, особенно при использовании Prefill-Decode (P/D) архитектур. Эти архитектуры разделяют работу на две стадии — Prefill и Decode, что приводит к неэффективному использованию разнородного оборудования и к сетевым проблемам. Традиционные автомасштабируемые системы не способны эффективно управлять такими системами, что приводит к потере ресурсов и нехватке ресурсов. Это создает мотивацию для разработки новых методологий, которые могут эффективно управлять ресурсами в таких сложных системах.
#### Метод
Методология, представленная в HeteroScale, основывается на топологически созданном расписании и метрике, оптимизированной для больших данных. Архитектура включает в себя два основных компонента: 1) топологический планировщик, который адаптируется к разным типам железа и сетевым ограничениям, и 2) метрика-драйвенная политика, основанная на эмпирических данных. Технически, HeteroScale использует новую метрику для совместного управления пулом Prefill и Decode, чтобы поддерживать баланс архитектуры и эффективно управлять ресурсами. Эту модель протестировали на огромном производственном окружении, надеясь на улучшение управления железом и экономии ресурсов.
#### Результаты
В результате экспериментов, проведенных на большом количестве реальных данных, показано, что HeteroScale эффективно улучшает управление ресурсами. Он увеличивает среднюю загрузку GPU до 26.6%, что значительно превышает результаты традиционных систем. Это приводит к экономии сотен тысяч GPU-часов ежедневно, сохраняя при этом высокие сервисные уровни. Эти результаты показывают, что HeteroScale может эффективно решить проблемы, связанные с высоконагруженными LLM-сервисами.
#### Значимость
HeteroScale может применяться в различных областях, где требуется эффективное управление ресурсами в сервисах с графическими процессорами, таких как обработка естественного языка, генерация текста, трансляции и другие GPU-интенсивные задачи. Он предоставляет значительные преимущества, такие как эффективное использование ресурсов, низкие затраты на ресурсы и улучшение производительности. Это может существенно повлиять на развитие сервисов LLM, улучшая их стоимость и эффективность.
#### Выводы
HeteroScale — это эффективная система управления ресурсами, которая может работать в сложных ситуациях с разнородным оборудованием и разделенными архитектурами. Она не только улучшает производительность, но и экономит ресурсы, устанавливая новые стандарты для LLM-сервисов. Будущие исследования будут нацелены
Abstract
Serving Large Language Models (LLMs) is a GPU-intensive task where
traditional autoscalers fall short, particularly for modern Prefill-Decode
(P/D) disaggregated architectures. This architectural shift, while powerful,
introduces significant operational challenges, including inefficient use of
heterogeneous hardware, network bottlenecks, and critical imbalances between
prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling
framework that addresses the core challenges of P/D disaggregated serving.
HeteroScale combines a topology-aware scheduler that adapts to heterogeneous
hardware and network constraints with a novel metric-driven policy derived from
the first large-scale empirical study of autoscaling signals in production. By
leveraging a single, robust metric to jointly scale prefill and decode pools,
HeteroScale maintains architectural balance while ensuring efficient, adaptive
resource management. Deployed in a massive production environment on tens of
thousands of GPUs, HeteroScale has proven its effectiveness, increasing average
GPU utilization by a significant 26.6 percentage points and saving hundreds of
thousands of GPU-hours daily, all while upholding stringent service level
objectives.
Ссылки и действия
Дополнительные ресурсы: