Cache Management for Mixture-of-Experts LLMs -- extended version

2509.02408v1 cs.LG, cs.DS 2025-09-06
Авторы:

Spyros Angelopoulos, Loris Marchal, Adrien Obrecht, Bertrand Simon

Резюме на русском

## Контекст Large language models (LLMs) являются мощными инструментами с широкими возможностями в области обработки естественного языка. Однако, их успешное развертывание сталкивается с значительными вызовами, в том числе с управлением памятью. Эти модели обычно состоят из миллиардов параметров, что требует эффективного использования ограниченных системных ресурсов. Чтобы значительно сократить объем активных параметров, используются модели типа Mixture-of-Experts (MoE). Однако, в дополнение к эффективному управлению памятью, эффективное управление кэшем системы становится критически важным. Задача состоит в том, чтобы гарантировать, что часто используемые эксперты хранятся в быстром кэше, а не в медленном внешнем хранилище. Это расширенное исследование посвящено разработке и исследованию эффективных алгоритмов для управления кэшем, оптимизированных для этой специальной задачи. ## Метод Мы предлагаем новую модель, основанную на проблеме paging, чтобы оптимизировать управление экспертами в моделях MoE. Наша модель принимает во внимание сложную структуру LLM, включая разные слои и экспертов, а также ограничения кэша. Мы исследуем нижние оценки по конкурентному коэффициенту для оптимальных алгоритмов, которые могут использоваться для этой задачи. Наши исследования включают заголовки (deterministic) и случайные (randomized) алгоритмы. Мы также предлагаем расширенную версию LRU-алгоритма, которая адаптируется к уникальным требованиям управления экспертами в моделях MoE. Эта модель учитывает слои (layers) и специфические частоты использования экспертов. ## Результаты Используя синтетические данные и реальные трассы использования MoE, мы провели ряд экспериментов для сравнения нашего алгоритма с классическим LRU. Результаты показали, что наша расширенная версия LRU показывает значительное улучшение в производительности, особенно в ситуации, когда часто используются определенные эксперты. Мы также проверили, как наш алгоритм справляется с реальными данными, полученными из фактических запросов к моделям MoE. Эти эксперименты подтвердили высокую эффективность нашего подхода в оптимизации кэша. ## Значимость Наш подход может быть применен в различных сценариях, где требуется эффективное управление кэшем, в том числе в области обработки естественного языка, работы с большими данными и системах обучения машин. Одним из преимуществ является ощутимое уменьшение времени доступа к данным, что повышает общую эффективность системы. Этот подход может также иметь значительное влияние на снижение затрат на вычисли

Abstract

Large language models (LLMs) have demonstrated remarkable capabilities across a variety of tasks. One of the main challenges towards the successful deployment of LLMs is memory management, since they typically involve billions of parameters. To this end, architectures based on Mixture-of-Experts have been proposed, which aim to reduce the size of the parameters that are activated when producing a token. This raises the equally critical issue of efficiently managing the limited cache of the system, in that frequently used experts should be stored in the fast cache rather than in the slower secondary memory. In this work, we introduce and study a new paging problem that models expert management optimization. Our formulation captures both the layered architecture of LLMs and the requirement that experts are cached efficiently. We first present lower bounds on the competitive ratio of both deterministic and randomized algorithms, which show that under mild assumptions, LRU-like policies have good theoretical competitive performance. We then propose a layer-based extension of LRU that is tailored to the problem at hand. Extensive simulations on both synthetic datasets and actual traces of MoE usage show that our algorithm outperforms policies for the classic paging problem, such as the standard LRU.

Ссылки и действия