ShadowServe: Interference-Free KV Cache Fetching for Distributed Prefix Caching
2509.16857v1
cs.DC, cs.AI, cs.LG
2025-09-24
Авторы:
Xingyu Xiang, Raj Joshi, Yuhan Liu, Jiayi Yao, Chenxingyu Zhao, Junchen Jiang, Yang Zhou, Eddie Kohler, Minlan Yu
Резюме на русском
## Контекст
Одним из ключевых аспектов работы моделей глубокого обучения, таких как трансформеры, является эффективное управление кэшированием ключ-значение (KV). Это особенно важно для распределенных приложений с префиксной кэш-выборкой, где часто используются общие контекстные префиксы. Тем не менее, развитие этих систем сталкивается с рядом проблем, в том числе ограничениями по бандводу, конфликтам между операциями кэширования и вычислениями моделей. Необходимо разработать систему, которая бы обеспечивала эффективное кэширование, не нарушая вычислительные процессы.
## Метод
ShadowServe — это первая система, основанная на SmartNIC, которая реализует интерфейс префиксного кэширования для распределенной обработки моделей глубокого обучения. Основной идеей является разделение обработки на два плана: контрольный (на хосте) и данных (на SmartNIC). Это позволяет избежать конфликтов между вычислениями GPU и операциями кэширования. Чтобы оптимизировать ресурсы SmartNIC, ShadowServe применяет технологию чанкованного пайплайна, которая разделяет данные на блоки и распределяет их по разным вычислительным модулям. Также используется схема минимального копирования, чтобы уменьшить нагрузку на память SmartNIC.
## Результаты
Эксперименты проводились на реальных данных и показали высокую эффективность ShadowServe. Она достигла снижения загрузки времени на вывод токена (TPOT) до 2.2 раз по сравнению с состоянием техники. Также было замечено уменьшение времени до первого токена (TTFT) в 1.38 раз в условиях низкой пропускной способности (<= 20 Gbps). В ситуациях, когда пропускная способность достигала 20-50 Gbps, ShadowServe показала до 1.35 раза вышей производительности. Эти результаты подтверждают высокую эффективность и надежность нового подхода.
## Значимость
ShadowServe может быть применена в различных сценариях, где требуется эффективное кэширование для моделей глубокого обучения. Она обеспечивает более быструю загрузку и обработку данных, что уменьшает задержки и повышает производительность систем. Такой подход может стать ключевой компонентой для развития технологий в области ИИ, особенно в случае распределенных систем с ограниченной пропускной способностью. Будущие исследования будут сконцентрированы на улучшении скорости отклика и уменьшении накладных расходов.
## Выводы
ShadowServe доказала свою эффективность в решении проблем кэширования ключ-значение в распределенных системах. Она позволяет эффективно изолировать вычисления моделей GPU от операций кэширования, что повышает общую производительность. Этот подход является первым шагом к более производительным и независимым от бандвода си
Abstract
Distributed prefix caching accelerates long-context LLM serving by reusing KV
cache entries for common context prefixes. However, KV cache fetches can become
a bottleneck when network bandwidth is limited. Compression mitigates the
bandwidth issue, but can degrade overall performance when decompression
interferes with model computation.
We present ShadowServe, the first SmartNIC-accelerated, interference-free
prefix caching system for LLM serving. ShadowServe separates a control plane on
the host and a data plane fully offloaded to the SmartNIC, which eliminates
interference to both host GPU and CPU. To overcome the SmartNIC's limited
compute and memory resources, we design a chunked pipeline that parallelizes
data plane operations across the SmartNIC's compute resources, and a
minimal-copy memory management scheme that reduces memory pressure on the
SmartNIC. Compared to state-of-the-art solutions, ShadowServe achieves up to
2.2x lower loaded time-per-output-token (TPOT), and reduces time-to-first-token
(TTFT) by up to 1.38x in low-bandwidth scenarios (<= 20 Gbps), translating to
up to 1.35x higher throughput.
Ссылки и действия
Дополнительные ресурсы: