Cache Management for Mixture-of-Experts LLMs -- extended version
2509.02408v1
cs.LG, cs.DS
2025-09-06
Авторы:
Spyros Angelopoulos, Loris Marchal, Adrien Obrecht, Bertrand Simon
Резюме на русском
## Контекст
Large language models (LLMs) являются мощными инструментами с широкими возможностями в области обработки естественного языка. Однако, их успешное развертывание сталкивается с значительными вызовами, в том числе с управлением памятью. Эти модели обычно состоят из миллиардов параметров, что требует эффективного использования ограниченных системных ресурсов. Чтобы значительно сократить объем активных параметров, используются модели типа Mixture-of-Experts (MoE). Однако, в дополнение к эффективному управлению памятью, эффективное управление кэшем системы становится критически важным. Задача состоит в том, чтобы гарантировать, что часто используемые эксперты хранятся в быстром кэше, а не в медленном внешнем хранилище. Это расширенное исследование посвящено разработке и исследованию эффективных алгоритмов для управления кэшем, оптимизированных для этой специальной задачи.
## Метод
Мы предлагаем новую модель, основанную на проблеме paging, чтобы оптимизировать управление экспертами в моделях MoE. Наша модель принимает во внимание сложную структуру LLM, включая разные слои и экспертов, а также ограничения кэша. Мы исследуем нижние оценки по конкурентному коэффициенту для оптимальных алгоритмов, которые могут использоваться для этой задачи. Наши исследования включают заголовки (deterministic) и случайные (randomized) алгоритмы. Мы также предлагаем расширенную версию LRU-алгоритма, которая адаптируется к уникальным требованиям управления экспертами в моделях MoE. Эта модель учитывает слои (layers) и специфические частоты использования экспертов.
## Результаты
Используя синтетические данные и реальные трассы использования MoE, мы провели ряд экспериментов для сравнения нашего алгоритма с классическим LRU. Результаты показали, что наша расширенная версия LRU показывает значительное улучшение в производительности, особенно в ситуации, когда часто используются определенные эксперты. Мы также проверили, как наш алгоритм справляется с реальными данными, полученными из фактических запросов к моделям MoE. Эти эксперименты подтвердили высокую эффективность нашего подхода в оптимизации кэша.
## Значимость
Наш подход может быть применен в различных сценариях, где требуется эффективное управление кэшем, в том числе в области обработки естественного языка, работы с большими данными и системах обучения машин. Одним из преимуществ является ощутимое уменьшение времени доступа к данным, что повышает общую эффективность системы. Этот подход может также иметь значительное влияние на снижение затрат на вычисли
Abstract
Large language models (LLMs) have demonstrated remarkable capabilities across
a variety of tasks. One of the main challenges towards the successful
deployment of LLMs is memory management, since they typically involve billions
of parameters. To this end, architectures based on Mixture-of-Experts have been
proposed, which aim to reduce the size of the parameters that are activated
when producing a token. This raises the equally critical issue of efficiently
managing the limited cache of the system, in that frequently used experts
should be stored in the fast cache rather than in the slower secondary memory.
In this work, we introduce and study a new paging problem that models expert
management optimization. Our formulation captures both the layered architecture
of LLMs and the requirement that experts are cached efficiently. We first
present lower bounds on the competitive ratio of both deterministic and
randomized algorithms, which show that under mild assumptions, LRU-like
policies have good theoretical competitive performance. We then propose a
layer-based extension of LRU that is tailored to the problem at hand.
Extensive simulations on both synthetic datasets and actual traces of MoE
usage show that our algorithm outperforms policies for the classic paging
problem, such as the standard LRU.
Ссылки и действия
Дополнительные ресурсы: