EvolKV: Evolutionary KV Cache Compression for LLM Inference
2509.08315v1
cs.LG, cs.CL, cs.NE
2025-09-12
Авторы:
Bohan Yu, Yekun Chai
Резюме на русском
Эволюционная система кэширования ключей-значений (EvolKV) для компрессии кэша ключей-значений в интерпретации моделей с широким контекстом (LLM)
=========================================================================================================================================================
## Контекст
Задачи интерпретации моделей с широким контекстом (LLM), таких как кодирование кода и семантический поиск, требуют сложных вычислений и значительных ресурсов памяти. Одним из ключевых аспектов эффективной интерпретации является кэш ключей-значений (KV), который позволяет моделям быстро доступиться к предыдущим вычислениям. Однако разработка эффективных стратегий кэширования часто ограничивается радикальной зависимостью от неоптимальных техник, таких как универсальные правила распределения кэша или статические политики удаления кэша. Эти подходы не учитывают контекстные паттерны и зависимости между слоями модели, что приводит к ухудшению общей точности и эффективности. Таким образом, необходимо разработать более гибкие и адаптивные методы, которые могут динамически анализировать и адаптироваться к контексту и задаче.
## Метод
EvolKV представляет собой новую адаптивную систему кэширования ключей-значений, основанную на эволюционном поиске, для динамического присвоения бюджетов кэша на уровне слоев. Методология EvolKV основывается на нескольких ключевых компонентах:
1. **Преобразование задачи кэширования в задачу многоцелевого оптимизации.** Для того чтобы учесть различные задачи и контексты, EvolKV представляет задачу кэширования как многоцелевую оптимизацию, которая учитывает как эффективность памяти, так и качество решения задачи.
2. **Эволюционный поиск для динамического присвоения бюджетов кэша.** Эволюционный поиск позволяет EvolKV динамически настраивать бюджеты кэша для каждого слоя модели, учитывая контекстную сложность и задачу. Это позволяет адаптироваться к разным задачам и обеспечивает оптимальное использование ресурсов памяти.
3. **Оценка и максимизация динамической производительности.** EvolKV напрямую оптимизирует задачу LLM, используя результаты кэширования, чтобы максимизировать общую точность и эффективность.
## Результаты
Чтобы оценить эффективность EvolKV, авторы провели 11 экспериментов на различных задачах, включая кодирование кода и семантический поиск. Использовались различные бюджеты кэша, от 2% до 100% от полного размера кэша. Результаты показали, что EvolKV превосходит все базовые методы в кэше, включая универсальные и статические политики, на до 7% в задаче GSM8K. Более того, на задаче кодирования кода (Code Completion), EvolKV достиг того же уровня производительности, что и полный кэш, испо
Abstract
Existing key-value (KV) cache compression methods typically rely on
heuristics, such as uniform cache allocation across layers or static eviction
policies, however, they ignore the critical interplays among layer-specific
feature patterns and task performance, which can lead to degraded
generalization. In this paper, we propose EvolKV, an adaptive framework for
layer-wise, task-driven KV cache compression that jointly optimizes the memory
efficiency and task performance. By reformulating cache allocation as a
multi-objective optimization problem, EvolKV leverages evolutionary search to
dynamically configure layer budgets while directly maximizing downstream
performance. Extensive experiments on 11 tasks demonstrate that our approach
outperforms all baseline methods across a wide range of KV cache budgets on
long-context tasks and surpasses heuristic baselines by up to 7 percentage
points on GSM8K. Notably, EvolKV achieves superior performance over the full KV
cache setting on code completion while utilizing only 1.5% of the original
budget, suggesting the untapped potential in learned compression strategies for
KV cache budget allocation.
Ссылки и действия
Дополнительные ресурсы: