HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling

2508.15919v1 cs.DC, cs.AI 2025-08-26
Авторы:

Zahra Yousefijamarani, Xinglu Wang, Qian Wang, Morgan Lindsay Heisler, Taha Shabani, Niloofar Gholipour, Parham Yassini, Hong Chang, Kan Chen, Qiantao Zhang, Xiaolong Bai, Jiannan Wang, Ying Xiong, Yong Zhang, Zhenan Fan

Резюме на русском

## Контекст Modern large language model (LLM) serving systems сталкиваются с вызовами, связанными с интенсивными изменениями в запросах, отличающимися по длине, приоритету и различным сервис-уровням (SLOs). Эти проблемы включают необходимость реалить реального времени scheduling, быстрого и экономичного масштабирования, а также поддержку коллокатовных и дисагрегованных Prefill/Decode (P/D) архитектур. Недостаток эффективных решений для объединения алгоритмических и системных инноваций приводит к низкой эффективности и высоким затратам при обслуживании запросов. ## Метод Основная идея **HyperFlexis** заключается в совместном оптимизировании scheduling и scaling. Это достигается через разработку взаимозависимого алгоритмического и системного подхода, который задействует: 1. **Multi-SLO-aware Scheduler**, который использует budget estimation и request prioritization для управления SLO запросов, как новых, так и продолжающихся. 2. **Optimized Scaling**, который поддерживает prefill- и decode-stage scheduling для P/D-архитектур и KV cache transfers. 3. **Cost-Effective Scaling**, включающий в себя linking prefill- и decode-instance и быстрые P/D role transitions. 4. **Device-to-Device (D2D) Weight Transfer Mechanism**, который уменьшает overhead при загрузке весов до **19.39×**. ## Результаты Эксперименты проводились на реальных данных с LLM-запросами, где **HyperFlexis** была сравнена с состоянием искусства. Результаты показали: - **SLO Attainment**: достижение до **4.44×** выше, в сравнении с baseline. - **Request Latency**: **65.82\%** lower latency. - **Cost Efficiency**: стоимость операций соответствует состоянию искусства. Эти результаты доказывают улучшения в производительности и экономичности в много-SLO запросах. ## Значимость **HyperFlexis** может применяться в различных областях, таких как real-time LLM serving, видео-потоковое обслуживание, и другие задачи, требующие высокой производительности и экономичности. Его преимущества включают: - Улучшенная эффективность SLOs. - Значительное сокращение latency. - Экономичная стоимость. Будущие исследования будут фокусироваться на улучшении scalability для более крупных моделей и повышении adaptive capacity в запросах. ## Выводы **HyperFlexis** является первым подходом, который успешно объединяет algorithmic и system-level innovations для много-SLO serving и rapid scaling. Он достигает высокой эффективности в запросах, доказывая свою эффективность в реальных ситуациях. На будущее, исследования будут сфокусированы на улучшении adaptive capacity и scalability.

Abstract

Modern large language model (LLM) serving systems face challenges from highly variable requests with diverse lengths, priorities, and stage-specific service-level objectives (SLOs). Meeting these requires real-time scheduling, rapid and cost-effective scaling, and support for both collocated and disaggregated Prefill/Decode (P/D) architectures. We present \textbf{HyperFlexis}, a unified LLM serving system that integrates algorithmic and system-level innovations to jointly optimize scheduling and scaling under multiple SLOs. It features a multi-SLO-aware scheduler that leverages budget estimation and request prioritization to ensure proactive SLO compliance for both new and ongoing requests. The system supports prefill- and decode-stage multi-SLO scheduling for P/D-disaggregated architectures and KV cache transfers. It also enables cost-effective scaling decisions, prefill-decode instance linking during scaling, and rapid P/D role transitions. To accelerate scaling and reduce cold-start latency, a device-to-device (D2D) weight transfer mechanism is proposed that lowers weight loading overhead by up to \textbf{19.39$\times$}. These optimizations allow the system to achieve up to \textbf{4.44$\times$} higher SLO attainment, \textbf{65.82\%} lower request latency, and cost parity with state-of-the-art baselines. The code will be released soon.

Ссылки и действия