HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling
2508.15919v1
cs.DC, cs.AI
2025-08-26
Авторы:
Zahra Yousefijamarani, Xinglu Wang, Qian Wang, Morgan Lindsay Heisler, Taha Shabani, Niloofar Gholipour, Parham Yassini, Hong Chang, Kan Chen, Qiantao Zhang, Xiaolong Bai, Jiannan Wang, Ying Xiong, Yong Zhang, Zhenan Fan
Резюме на русском
## Контекст
Modern large language model (LLM) serving systems сталкиваются с вызовами, связанными с интенсивными изменениями в запросах, отличающимися по длине, приоритету и различным сервис-уровням (SLOs). Эти проблемы включают необходимость реалить реального времени scheduling, быстрого и экономичного масштабирования, а также поддержку коллокатовных и дисагрегованных Prefill/Decode (P/D) архитектур. Недостаток эффективных решений для объединения алгоритмических и системных инноваций приводит к низкой эффективности и высоким затратам при обслуживании запросов.
## Метод
Основная идея **HyperFlexis** заключается в совместном оптимизировании scheduling и scaling. Это достигается через разработку взаимозависимого алгоритмического и системного подхода, который задействует:
1. **Multi-SLO-aware Scheduler**, который использует budget estimation и request prioritization для управления SLO запросов, как новых, так и продолжающихся.
2. **Optimized Scaling**, который поддерживает prefill- и decode-stage scheduling для P/D-архитектур и KV cache transfers.
3. **Cost-Effective Scaling**, включающий в себя linking prefill- и decode-instance и быстрые P/D role transitions.
4. **Device-to-Device (D2D) Weight Transfer Mechanism**, который уменьшает overhead при загрузке весов до **19.39×**.
## Результаты
Эксперименты проводились на реальных данных с LLM-запросами, где **HyperFlexis** была сравнена с состоянием искусства. Результаты показали:
- **SLO Attainment**: достижение до **4.44×** выше, в сравнении с baseline.
- **Request Latency**: **65.82\%** lower latency.
- **Cost Efficiency**: стоимость операций соответствует состоянию искусства.
Эти результаты доказывают улучшения в производительности и экономичности в много-SLO запросах.
## Значимость
**HyperFlexis** может применяться в различных областях, таких как real-time LLM serving, видео-потоковое обслуживание, и другие задачи, требующие высокой производительности и экономичности. Его преимущества включают:
- Улучшенная эффективность SLOs.
- Значительное сокращение latency.
- Экономичная стоимость.
Будущие исследования будут фокусироваться на улучшении scalability для более крупных моделей и повышении adaptive capacity в запросах.
## Выводы
**HyperFlexis** является первым подходом, который успешно объединяет algorithmic и system-level innovations для много-SLO serving и rapid scaling. Он достигает высокой эффективности в запросах, доказывая свою эффективность в реальных ситуациях. На будущее, исследования будут сфокусированы на улучшении adaptive capacity и scalability.
Abstract
Modern large language model (LLM) serving systems face challenges from highly
variable requests with diverse lengths, priorities, and stage-specific
service-level objectives (SLOs). Meeting these requires real-time scheduling,
rapid and cost-effective scaling, and support for both collocated and
disaggregated Prefill/Decode (P/D) architectures.
We present \textbf{HyperFlexis}, a unified LLM serving system that integrates
algorithmic and system-level innovations to jointly optimize scheduling and
scaling under multiple SLOs. It features a multi-SLO-aware scheduler that
leverages budget estimation and request prioritization to ensure proactive SLO
compliance for both new and ongoing requests. The system supports prefill- and
decode-stage multi-SLO scheduling for P/D-disaggregated architectures and KV
cache transfers. It also enables cost-effective scaling decisions,
prefill-decode instance linking during scaling, and rapid P/D role transitions.
To accelerate scaling and reduce cold-start latency, a device-to-device (D2D)
weight transfer mechanism is proposed that lowers weight loading overhead by up
to \textbf{19.39$\times$}. These optimizations allow the system to achieve up
to \textbf{4.44$\times$} higher SLO attainment, \textbf{65.82\%} lower request
latency, and cost parity with state-of-the-art baselines. The code will be
released soon.
Ссылки и действия
Дополнительные ресурсы: