ShadowServe: Interference-Free KV Cache Fetching for Distributed Prefix Caching

2509.16857v1 cs.DC, cs.AI, cs.LG 2025-09-24

Авторы:

Xingyu Xiang, Raj Joshi, Yuhan Liu, Jiayi Yao, Chenxingyu Zhao, Junchen Jiang, Yang Zhou, Eddie Kohler, Minlan Yu

Резюме на русском

## Контекст Одним из ключевых аспектов работы моделей глубокого обучения, таких как трансформеры, является эффективное управление кэшированием ключ-значение (KV). Это особенно важно для распределенных приложений с префиксной кэш-выборкой, где часто используются общие контекстные префиксы. Тем не менее, развитие этих систем сталкивается с рядом проблем, в том числе ограничениями по бандводу, конфликтам между операциями кэширования и вычислениями моделей. Необходимо разработать систему, которая бы обеспечивала эффективное кэширование, не нарушая вычислительные процессы. ## Метод ShadowServe — это первая система, основанная на SmartNIC, которая реализует интерфейс префиксного кэширования для распределенной обработки моделей глубокого обучения. Основной идеей является разделение обработки на два плана: контрольный (на хосте) и данных (на SmartNIC). Это позволяет избежать конфликтов между вычислениями GPU и операциями кэширования. Чтобы оптимизировать ресурсы SmartNIC, ShadowServe применяет технологию чанкованного пайплайна, которая разделяет данные на блоки и распределяет их по разным вычислительным модулям. Также используется схема минимального копирования, чтобы уменьшить нагрузку на память SmartNIC. ## Результаты Эксперименты проводились на реальных данных и показали высокую эффективность ShadowServe. Она достигла снижения загрузки времени на вывод токена (TPOT) до 2.2 раз по сравнению с состоянием техники. Также было замечено уменьшение времени до первого токена (TTFT) в 1.38 раз в условиях низкой пропускной способности (<= 20 Gbps). В ситуациях, когда пропускная способность достигала 20-50 Gbps, ShadowServe показала до 1.35 раза вышей производительности. Эти результаты подтверждают высокую эффективность и надежность нового подхода. ## Значимость ShadowServe может быть применена в различных сценариях, где требуется эффективное кэширование для моделей глубокого обучения. Она обеспечивает более быструю загрузку и обработку данных, что уменьшает задержки и повышает производительность систем. Такой подход может стать ключевой компонентой для развития технологий в области ИИ, особенно в случае распределенных систем с ограниченной пропускной способностью. Будущие исследования будут сконцентрированы на улучшении скорости отклика и уменьшении накладных расходов. ## Выводы ShadowServe доказала свою эффективность в решении проблем кэширования ключ-значение в распределенных системах. Она позволяет эффективно изолировать вычисления моделей GPU от операций кэширования, что повышает общую производительность. Этот подход является первым шагом к более производительным и независимым от бандвода си

Abstract

Distributed prefix caching accelerates long-context LLM serving by reusing KV cache entries for common context prefixes. However, KV cache fetches can become a bottleneck when network bandwidth is limited. Compression mitigates the bandwidth issue, but can degrade overall performance when decompression interferes with model computation. We present ShadowServe, the first SmartNIC-accelerated, interference-free prefix caching system for LLM serving. ShadowServe separates a control plane on the host and a data plane fully offloaded to the SmartNIC, which eliminates interference to both host GPU and CPU. To overcome the SmartNIC's limited compute and memory resources, we design a chunked pipeline that parallelizes data plane operations across the SmartNIC's compute resources, and a minimal-copy memory management scheme that reduces memory pressure on the SmartNIC. Compared to state-of-the-art solutions, ShadowServe achieves up to 2.2x lower loaded time-per-output-token (TPOT), and reduces time-to-first-token (TTFT) by up to 1.38x in low-bandwidth scenarios (<= 20 Gbps), translating to up to 1.35x higher throughput.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ShadowServe: Interference-Free KV Cache Fetching for Distributed Prefix Caching

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems

Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over...

Towards Straggler-Resilient Split Federated Learning: An Unbalanced Update Appro...

HybridEP: Scaling Expert Parallelism to Cross-Datacenter Scenario via Hybrid Exp...

Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of...

Навигация