Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling

2508.03611v1 cs.DC, cs.AI 2025-08-06

Авторы:

Wei Da, Evangelia Kalyvianaki

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные языковые модели (LLM) стали краеугольным камнем в области искусственного интеллекта, находя применение в таких областях, как обработка естественного языка, машинное обучение и автоматизированный перевод. Однако эффективная служба этих моделей зачастую сталкивается с проблемами, связанными с балансировкой нагрузки и оптимизацией распределения ресурсов. Традиционные системы обслуживания моделей часто полагаются на монолитные и эвристические планировщики задач, которые могут быть неэффективными в условиях изменяющихся нагрузок и разнообразных конфигураций оборудования. Эти системы, как правило, не учитывают контекстуальную информацию, такую как конфигурации хостов, длина ответов и производительность аппаратного обеспечения, что приводит к неравномерному распределению нагрузки и увеличению задержек. В этом контексте необходимость разработки новой системы, способной справляться с данными вызовами, становится более актуальной. Настоящее исследование направлено на преодоление этих ограничений путем разработки системы, способной более точно предсказывать и балансировать нагрузку на основе контекстной информации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют Block — распределенную систему планирования, которая оптимизирует балансировку нагрузки и автоматическое распределение ресурсов в рамках обслуживания крупными языковыми моделями. Block отличается от традиционных решений тем, что является полностью распределенной, без сохранения состояния и использует предсказательные методы для планирования задач. Система использует детерминированные и предсказуемые характеристики вывода LLM, такие как конфигурация хостов, длина ответов и производительность аппаратного обеспечения, для принятия решений на основе точно предсказанных метрик. Архитектура Block позволяет обеспечить низкие накладные расходы, надежность и масштабируемость, что делает ее более эффективной по сравнению с монолитными системами. Система учитывает контекстную информацию из входящих запросов, что позволяет более точно управлять распределением нагрузки и повышать производительность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности системы Block были проведены эксперименты на кластере из 12 GPU. Результаты показали, что Block значительно превышает производительность эвристических планировщиков, увеличивая вместимость обслуживания до 16,7% и снижая задержку на уровне P99 до 49,5%. Эти показатели остаются стабильными при различных моделях, нагрузках и конфигурациях оборудования. Эксперименты также подтвердили, что использование контекстуальной информации для предсказательного планирования позволяет более эффективно распределять ресурсы и снижать задержки, что является значительным улучшением по сравнению с традиционными системами. Открытый исходный код и данные позволяют другим исследователям и разработчикам воспроизвести результаты и адаптировать систему под свои нужды. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Block имеет широкий диапазон практического применения, особенно в областях, где требуется эффективное обслуживание крупными языковыми моделями. Система может быть использована в облачных сервисах, центрах обработки данных и других инфраструктурах, где необходима оптимизация распределения ресурсов и снижение задержек. Основные преимущества Block включают в себя высокую масштабируемость, надежность и способность адаптироваться к изменяющимся условиям нагрузки. Потенциальное влияние системы заключается в значительном улучшении качества обслуживания, что может привести к более быстрому и эффективному выполнению задач, связанных с обработкой естественного языка и другими сложными вычислениями. Благодаря открытости кода, Block может стать основой для дальнейших исследований и разработок в области распределенных систем планирования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование продемонстрировало, что использование контекстуальной информации и предсказательных методов в распределенных системах планирования может значительно улучшить производительность обслуживания крупными языковыми моделями. Основные достижения Block включают повышение вместимости обслуживания и снижение задержек, что делает систему более эффективной по сравнению с традиционными подходами. В будущем авторы планируют расширить функциональность Block, добавив поддержку более широкого спектра моделей и конфигураций. Также рассматривается возможность интеграции с другими системами управления ресурсами для повышения общей эффективности и надежности. Дальнейшие исследования могут быть направлены на изучение влияния различных типов контекстуальной информации на производительность системы и разработку новых алгоритмов планирования.

Abstract

This paper presents Block, a distributed scheduling framework designed to optimize load balancing and auto-provisioning across instances in large language model serving frameworks by leveraging contextual information from incoming requests. Unlike popular model serving systems that rely on monolithic and heuristic task schedulers, Block operates as a fully distributed, stateless, and predictive scheduling system to achieve low overhead, reliability, and scalability. It leverages the deterministic and predictable characteristics of LLM inferences, such as host configurations, response lengths, and hardware performance, to make scheduling decisions based on accurately predicted metrics. Evaluation on a 12 GPUs cluster shows that Block significantly outperforms heuristic schedulers, boosting serving capacity by up to 16.7\% and reducing P99 tail latency by up to 49.5\%. These performance gains remain consistent across diverse models, workloads and configurations. Code and data are open-sourced.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация