EvolKV: Evolutionary KV Cache Compression for LLM Inference

2509.08315v1 cs.LG, cs.CL, cs.NE 2025-09-12

Авторы:

Bohan Yu, Yekun Chai

Резюме на русском

Эволюционная система кэширования ключей-значений (EvolKV) для компрессии кэша ключей-значений в интерпретации моделей с широким контекстом (LLM) ========================================================================================================================================================= ## Контекст Задачи интерпретации моделей с широким контекстом (LLM), таких как кодирование кода и семантический поиск, требуют сложных вычислений и значительных ресурсов памяти. Одним из ключевых аспектов эффективной интерпретации является кэш ключей-значений (KV), который позволяет моделям быстро доступиться к предыдущим вычислениям. Однако разработка эффективных стратегий кэширования часто ограничивается радикальной зависимостью от неоптимальных техник, таких как универсальные правила распределения кэша или статические политики удаления кэша. Эти подходы не учитывают контекстные паттерны и зависимости между слоями модели, что приводит к ухудшению общей точности и эффективности. Таким образом, необходимо разработать более гибкие и адаптивные методы, которые могут динамически анализировать и адаптироваться к контексту и задаче. ## Метод EvolKV представляет собой новую адаптивную систему кэширования ключей-значений, основанную на эволюционном поиске, для динамического присвоения бюджетов кэша на уровне слоев. Методология EvolKV основывается на нескольких ключевых компонентах: 1. **Преобразование задачи кэширования в задачу многоцелевого оптимизации.** Для того чтобы учесть различные задачи и контексты, EvolKV представляет задачу кэширования как многоцелевую оптимизацию, которая учитывает как эффективность памяти, так и качество решения задачи. 2. **Эволюционный поиск для динамического присвоения бюджетов кэша.** Эволюционный поиск позволяет EvolKV динамически настраивать бюджеты кэша для каждого слоя модели, учитывая контекстную сложность и задачу. Это позволяет адаптироваться к разным задачам и обеспечивает оптимальное использование ресурсов памяти. 3. **Оценка и максимизация динамической производительности.** EvolKV напрямую оптимизирует задачу LLM, используя результаты кэширования, чтобы максимизировать общую точность и эффективность. ## Результаты Чтобы оценить эффективность EvolKV, авторы провели 11 экспериментов на различных задачах, включая кодирование кода и семантический поиск. Использовались различные бюджеты кэша, от 2% до 100% от полного размера кэша. Результаты показали, что EvolKV превосходит все базовые методы в кэше, включая универсальные и статические политики, на до 7% в задаче GSM8K. Более того, на задаче кодирования кода (Code Completion), EvolKV достиг того же уровня производительности, что и полный кэш, испо

Abstract

Existing key-value (KV) cache compression methods typically rely on heuristics, such as uniform cache allocation across layers or static eviction policies, however, they ignore the critical interplays among layer-specific feature patterns and task performance, which can lead to degraded generalization. In this paper, we propose EvolKV, an adaptive framework for layer-wise, task-driven KV cache compression that jointly optimizes the memory efficiency and task performance. By reformulating cache allocation as a multi-objective optimization problem, EvolKV leverages evolutionary search to dynamically configure layer budgets while directly maximizing downstream performance. Extensive experiments on 11 tasks demonstrate that our approach outperforms all baseline methods across a wide range of KV cache budgets on long-context tasks and surpasses heuristic baselines by up to 7 percentage points on GSM8K. Notably, EvolKV achieves superior performance over the full KV cache setting on code completion while utilizing only 1.5% of the original budget, suggesting the untapped potential in learned compression strategies for KV cache budget allocation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

EvolKV: Evolutionary KV Cache Compression for LLM Inference

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Intelligent Neural Networks: From Layered Architectures to Graph-Organized Intel...

Навигация