Adaptive KV-Cache Compression without Manually Setting Budget

2509.03136v1 cs.DB, cs.AI 2025-09-05

Авторы:

Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang

Резюме на русском

#### Контекст Наблюдается повышенный интерес к развитию бо LARGE LANGUAGE MODELS (LLMs), которые используются в различных приложениях, от генерирования текста до глубокого анализа данных. Одной из ключевых сложностей в их инференсе является управление кэшем ключ-значение (KV-cache), который используется для ускорения авторегрессионного декодирования. Несмотря на эффективность, возникают проблемы с эффективным использованием памяти: длина последовательности растет, что приводит к быстрому увеличению размера кэша. Это приводит к высоким затратам ресурсов и снижению производительности. Существующие методы управления кэшем требуют предварительного определения бюджета, что делает их ненаглядными и неэффективными для разнообразных задач. Этот вопрос требует разработки универсального адаптивного подхода для управления кэшем, который может автоматически настраиваться под различные требования. #### Метод Мы предлагаем **GVote** — адаптивную схему управления кэшем, которая выполняет оптимальное управление ресурсами без необходимости явного указания бюджета. Алгоритм оперирует принципом "важных ключей", которые представляют собой совокупность ключей, необходимых для будущих запросов. Чтобы предсказать эти запросы, GVote использует моделирование Monte-Carlo, в котором многократно сэмплируются потенциальные запросы. Для каждого сэмпла выбираются ключи, отвечающие ему, и суммируются в агрегированный бюджет. Эта стратегия позволяет адаптировать кэш под разные требования запросов без ручного вмешательства. Архитектура GVote включает модули для моделирования вероятностей запросов, оптимизации кэша и интеграции с LLMs. #### Результаты Наши эксперименты проводились на нескольких бенчмарках, включая GSM8K, RULER и Longbench. Мы сравнивали GVote с имеющимися методами управления кэшем. Результаты показали, что GVote достигает 2-кратного сокращения потребления памяти при сохранении высокой точности или лучшей, чем у базовых методов. Это указывает на высокую эффективность GVote в уменьшении затрат ресурсов без потери качества вывода. Мы также проверили стабильность GVote по отношению к различным нагрузочным условиям, подтвердив гибкость и надежность приложения. #### Значимость GVote предлагает новый подход к управлению кэшем KV-cache, который автоматически адаптируется под различные задачи LLMs. Это особенно важно для приложений, где постоянно меняются требования к ресурсам и запросам. GVote может применяться в сценариях, где необходима максимальная эффективность памяти, такие как мобильные устройства, облачные сервисы и реальному врем

Abstract

Large language models (LLMs) inference relies heavily on KV-caches to accelerate autoregressive decoding, but the resulting memory footprint grows rapidly with sequence length, posing significant efficiency challenges. Current KV-cache compression methods suffer from a Procrustes' bed problem: they force diverse workloads into fixed compression ratios, leading to suboptimal resource allocation and inference performance. To this end, we present GVote, an adaptive KV-cache compression scheme that eliminates manual budget specification while achieving superior accuracy-efficiency trade-offs. GVote operates on the principle that the important keys are the aggregation of keys required by future queries. The method predicts future query attention demands by Monte-Carlo style sampling potential queries and aggregating selected keys to determine the optimal cache budget without manual specification. Experimental evaluation demonstrates GVote's effectiveness across multiple benchmarks, including GSM8K, RULER and Longbench. Compared to baselines, GVote exhibits 2$\times$ memory reduction while the accuracy maintains higher or comparable.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adaptive KV-Cache Compression without Manually Setting Budget

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Thucy: An LLM-based Multi-Agent System for Claim Verification across Relational ...

Efficiently Sampling Interval Patterns from Numerical Databases

Beyond Relational: Semantic-Aware Multi-Modal Analytics with LLM-Native Query Op...

AskDB: An LLM Agent for Natural Language Interaction with Relational Databases

Vortex: Hosting ML Inference and Knowledge Retrieval Services With Tight Latency...

Навигация