Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

2508.19559v1 cs.DC, cs.AI 2025-08-29

Авторы:

Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu

Резюме на русском

#### Контекст Построение и поддержание сервисов Large Language Models (LLMs) потребляют большие ресурсы, особенно при использовании Prefill-Decode (P/D) архитектур. Эти архитектуры разделяют работу на две стадии — Prefill и Decode, что приводит к неэффективному использованию разнородного оборудования и к сетевым проблемам. Традиционные автомасштабируемые системы не способны эффективно управлять такими системами, что приводит к потере ресурсов и нехватке ресурсов. Это создает мотивацию для разработки новых методологий, которые могут эффективно управлять ресурсами в таких сложных системах. #### Метод Методология, представленная в HeteroScale, основывается на топологически созданном расписании и метрике, оптимизированной для больших данных. Архитектура включает в себя два основных компонента: 1) топологический планировщик, который адаптируется к разным типам железа и сетевым ограничениям, и 2) метрика-драйвенная политика, основанная на эмпирических данных. Технически, HeteroScale использует новую метрику для совместного управления пулом Prefill и Decode, чтобы поддерживать баланс архитектуры и эффективно управлять ресурсами. Эту модель протестировали на огромном производственном окружении, надеясь на улучшение управления железом и экономии ресурсов. #### Результаты В результате экспериментов, проведенных на большом количестве реальных данных, показано, что HeteroScale эффективно улучшает управление ресурсами. Он увеличивает среднюю загрузку GPU до 26.6%, что значительно превышает результаты традиционных систем. Это приводит к экономии сотен тысяч GPU-часов ежедневно, сохраняя при этом высокие сервисные уровни. Эти результаты показывают, что HeteroScale может эффективно решить проблемы, связанные с высоконагруженными LLM-сервисами. #### Значимость HeteroScale может применяться в различных областях, где требуется эффективное управление ресурсами в сервисах с графическими процессорами, таких как обработка естественного языка, генерация текста, трансляции и другие GPU-интенсивные задачи. Он предоставляет значительные преимущества, такие как эффективное использование ресурсов, низкие затраты на ресурсы и улучшение производительности. Это может существенно повлиять на развитие сервисов LLM, улучшая их стоимость и эффективность. #### Выводы HeteroScale — это эффективная система управления ресурсами, которая может работать в сложных ситуациях с разнородным оборудованием и разделенными архитектурами. Она не только улучшает производительность, но и экономит ресурсы, устанавливая новые стандарты для LLM-сервисов. Будущие исследования будут нацелены

Abstract

Serving Large Language Models (LLMs) is a GPU-intensive task where traditional autoscalers fall short, particularly for modern Prefill-Decode (P/D) disaggregated architectures. This architectural shift, while powerful, introduces significant operational challenges, including inefficient use of heterogeneous hardware, network bottlenecks, and critical imbalances between prefill and decode stages. We introduce HeteroScale, a coordinated autoscaling framework that addresses the core challenges of P/D disaggregated serving. HeteroScale combines a topology-aware scheduler that adapts to heterogeneous hardware and network constraints with a novel metric-driven policy derived from the first large-scale empirical study of autoscaling signals in production. By leveraging a single, robust metric to jointly scale prefill and decode pools, HeteroScale maintains architectural balance while ensuring efficient, adaptive resource management. Deployed in a massive production environment on tens of thousands of GPUs, HeteroScale has proven its effectiveness, increasing average GPU utilization by a significant 26.6 percentage points and saving hundreds of thousands of GPU-hours daily, all while upholding stringent service level objectives.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация