Maximizing GPU Efficiency via Optimal Adapter Caching: An Analytical Approach for Multi-Tenant LLM Serving

2508.08343v1 cs.PF, cs.AI, cs.CL 2025-08-14
Авторы:

Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral

Резюме на русском

## Контекст Последние годы сервисный языковых моделей (LLM) в развитии, во многом благодаря их универсальности. Однако, применение общих моделей к конкретным задачам часто требует развития адаптеров. Эти адаптеры значительно увеличивают нагрузку на системы, особенно в многоклиентских средах. Накладные расходы оказывают негативное влияние на производительность и повышают риск задержек и сбоев сервиса. Этот факт представляет вызов для эффективного управления ресурсами, особенно в средах с небольшим количеством ресурсов. Мы предлагаем первый аналитический подход, оптимизирующий размещение адаптеров на GPU в многоклиентских средах, в том числе применением цифровых двойников. Целью является улучшение производительности и эффективности ресурсного использования. ## Метод Мы предлагаем аналитическую модель, которая определяет оптимальное размещение адаптеров для GPU в системах LLM-серверов. Модель основывается на комплексном анализе накладных расходов, таких как память, время выполнения и переносимость запросов. Мы также разработали цифровую двойниковую модель, которая моделирует систему LLM-сервера в реальном времени, сохраняя ключевые метрики производительности. Эта модель позволяет провести эксперименты в имитационной среде, оценивая различные сценарии размещения. Мы упростили процесс оптимизации с помощью алгоритмов, которые автоматически определяют оптимальные параметры размещения, в том числе нагрузку на GPU, учет запросов и требований к памяти. ## Результаты Мы проверили нашу модель и цифровую двойниковую среду на реальных данных, собранных из работы с LLM-адаптерами. Мы сравнили результаты с реальной системой, получив сближение с ней, что подтвердило точность. Цифровая двойника оказалась точной в предсказании максимального числа запросов в секунду (QPS) и снижения соотношения ошибок, достигнув 94,5% точности в оценке производительности. В результате, мы установили, что наш подход эффективно уменьшает задержки и улучшает использование ресурсов, в том числе GPU, для серверов LLM. ## Значимость Мы предлагаем подход, который может быть применен в различных областях, включая облачные вычисления, серверное приложение и машинное обучение. Наш метод может предотвратить задержки, оптимизировать использование ресурсов и повысить производительность серверов LLM. Он имеет потенциал для улучшения ресурсов в окружениях с многоклиентской моделью, где эффективность ресурсов критична. Будущие исследования будут решать проблемы с масштабированием на несколько узлов и расширение модели для учета других факторов, таких как тре

Abstract

Serving LLM adapters has gained significant attention as an effective approach to adapt general-purpose language models to diverse, task-specific use cases. However, serving a wide range of adapters introduces several and substantial overheads, leading to performance degradation and challenges in optimal placement. To address these challenges, we present an analytical, AI-driven pipeline that accurately determines the optimal allocation of adapters in single-node setups. This allocation maximizes performance, effectively using GPU resources, while preventing request starvation. Crucially, the proposed allocation is given based on current workload patterns. These insights in single-node setups can be leveraged in multi-replica deployments for overall placement, load balancing and server configuration, ultimately enhancing overall performance and improving resource efficiency. Our approach builds on an in-depth analysis of LLM adapter serving, accounting for overheads and performance variability, and includes the development of the first Digital Twin capable of replicating online LLM-adapter serving systems with matching key performance metrics. The experimental results demonstrate that the Digital Twin achieves a SMAPE difference of no more than 5.5% in throughput compared to real results, and the proposed pipeline accurately predicts the optimal placement with minimal latency.

Ссылки и действия