Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference

2508.08438v1 cs.CR, cs.LG, cs.OS 2025-08-14

Авторы:

Kexin Chu, Zecheng Lin, Dawei Xiang, Zixu Shen, Jianchang Su, Cheng Chu, Yiwei Yang, Wenhui Zhang, Wenfei Wu, Wei Zhang

Резюме на русском

#### Контекст Large language models (LLMs) становятся важными для обработки текстов в сложных приложениях, но их высокая скорость работы делает их уязвимыми к атакам на основе тайминга. Одна из таких угроз — тайминговые сайд-чаннылс, которые позволяют атакующим получить доступ к чувствительным данным непосредственно из кеша. Эта проблема сильно снижает надежность и безопасность LLM-приложений. На сегодняшний день существуют методы изоляции кеша для уменьшения влияния тайминговых атак, но они значительно уменьшают производительность. Поэтому требуется новое решение, которое устранит эти атаки, не снижая производительности. #### Метод Мы предлагаем SafeKV (Secure and Flexible KV Cache Sharing) — новую архитектуру, основанную на концепции селективного кеша. Она разделяет кеш на две части: публичные данные, доступные для всех пользователей, и приватные данные, которые остаются защищенными. Методы работы SafeKV включают: (i) гибкую систему обнаружения, которая сочетает правила, паттерны и контекстную проверку; (ii) универсальную структуру данных на основе radix-tree, которая управляет размещением данных в разных уровнях памяти (HBM, DRAM, SSD); и (iii) мониторинг доступа с использованием энтропийных показателей, чтобы отслеживать и предотвращать утечки информации. #### Результаты Мы проверили SafeKV на различных моделях LLM и рабочих нагрузках. Метод удачно устраняет 94%-97% тайминговых атак, предотвращая потерю конфиденциальности. Улучшения производительности были заметны: время получения первого токена (TTFT) уменьшилось до 40,58%, а общая производительность (throughput) увеличилась до 2,66 раз в сравнении с методом изоляции кеша. На примере модели Qwen3-235B производительность была восстановлена в пределах от 50,41% до 11,74%, что позволяет реализовать высокую скорость работы с минимальными компромиссами в безопасности. #### Значимость SafeKV широко может применяться в различных системах, связанных с LLMs, в том числе в облачных сервисах, мобильных приложениях и системах с автоматизированной технической поддержкой. Он обеспечивает значительные преимущества, такие как повышение производительности без ущерба для приватности данных. Это решение может сильно повлиять на развитие безопасных систем для обработки текста и научных исследований в области конфиденциальности в AI. #### Выводы SafeKV достигает подлинного баланса между безопасностью и производительностью. Наше исследование показало, что фреймворк может эффективно защищать LLM-приложения от тайминговых атак, не уменьшая скорости работы. Мы планируем в дальнейшем расширить SafeKV на другие модели и приложения, а также вне

Abstract

Global KV-cache sharing has emerged as a key optimization for accelerating large language model (LLM) inference. However, it exposes a new class of timing side-channel attacks, enabling adversaries to infer sensitive user inputs via shared cache entries. Existing defenses, such as per-user isolation, eliminate leakage but degrade performance by up to 38.9% in time-to-first-token (TTFT), making them impractical for high-throughput deployment. To address this gap, we introduce SafeKV (Secure and Flexible KV Cache Sharing), a privacy-aware KV-cache management framework that selectively shares non-sensitive entries while confining sensitive content to private caches. SafeKV comprises three components: (i) a hybrid, multi-tier detection pipeline that integrates rule-based pattern matching, a general-purpose privacy detector, and context-aware validation; (ii) a unified radix-tree index that manages public and private entries across heterogeneous memory tiers (HBM, DRAM, SSD); and (iii) entropy-based access monitoring to detect and mitigate residual information leakage. Our evaluation shows that SafeKV mitigates 94% - 97% of timing-based side-channel attacks. Compared to per-user isolation method, SafeKV improves TTFT by up to 40.58% and throughput by up to 2.66X across diverse LLMs and workloads. SafeKV reduces cache-induced TTFT overhead from 50.41% to 11.74% on Qwen3-235B. By combining fine-grained privacy control with high cache reuse efficiency, SafeKV reclaims the performance advantages of global sharing while providing robust runtime privacy guarantees for LLM inference.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация