📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Metrics and evaluations for computational and sustainable AI efficiency

2025-10-23

Авторы:

Hongyuan Liu, Xinyang Liu, Guosheng Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid advancement of Artificial Intelligence (AI) has created unprecedented demands for computational power, yet methods for evaluating the performance, efficiency, and environmental impact of deployed models remain fragmented. Current approaches often fail to provide a holistic view, making it difficult to compare and optimise systems across heterogeneous hardware, software stacks, and numeric precisions. To address this gap, we propose a unified and reproducible methodology for AI model in...

ID: 2510.17885v1 cs.PF, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Maximizing GPU Efficiency via Optimal Adapter Caching: An Analytical Approach for Multi-Tenant LLM Serving

2025-08-14

Авторы:

Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral

## Контекст Последние годы сервисный языковых моделей (LLM) в развитии, во многом благодаря их универсальности. Однако, применение общих моделей к конкретным задачам часто требует развития адаптеров. Эти адаптеры значительно увеличивают нагрузку на системы, особенно в многоклиентских средах. Накладные расходы оказывают негативное влияние на производительность и повышают риск задержек и сбоев сервиса. Этот факт представляет вызов для эффективного управления ресурсами, особенно в средах с небольшим количеством ресурсов. Мы предлагаем первый аналитический подход, оптимизирующий размещение адаптеров на GPU в многоклиентских средах, в том числе применением цифровых двойников. Целью является улучшение производительности и эффективности ресурсного использования. ## Метод Мы предлагаем аналитическую модель, которая определяет оптимальное размещение адаптеров для GPU в системах LLM-серверов. Модель основывается на комплексном анализе накладных расходов, таких как память, время выполнения и переносимость запросов. Мы также разработали цифровую двойниковую модель, которая моделирует систему LLM-сервера в реальном времени, сохраняя ключевые метрики производительности. Эта модель позволяет провести эксперименты в имитационной среде, оценивая различные сценарии размещения. Мы упростили процесс оптимизации с помощью алгоритмов, которые автоматически определяют оптимальные параметры размещения, в том числе нагрузку на GPU, учет запросов и требований к памяти. ## Результаты Мы проверили нашу модель и цифровую двойниковую среду на реальных данных, собранных из работы с LLM-адаптерами. Мы сравнили результаты с реальной системой, получив сближение с ней, что подтвердило точность. Цифровая двойника оказалась точной в предсказании максимального числа запросов в секунду (QPS) и снижения соотношения ошибок, достигнув 94,5% точности в оценке производительности. В результате, мы установили, что наш подход эффективно уменьшает задержки и улучшает использование ресурсов, в том числе GPU, для серверов LLM. ## Значимость Мы предлагаем подход, который может быть применен в различных областях, включая облачные вычисления, серверное приложение и машинное обучение. Наш метод может предотвратить задержки, оптимизировать использование ресурсов и повысить производительность серверов LLM. Он имеет потенциал для улучшения ресурсов в окружениях с многоклиентской моделью, где эффективность ресурсов критична. Будущие исследования будут решать проблемы с масштабированием на несколько узлов и расширение модели для учета других факторов, таких как тре

Annotation:

Serving LLM adapters has gained significant attention as an effective approach to adapt general-purpose language models to diverse, task-specific use cases. However, serving a wide range of adapters introduces several and substantial overheads, leading to performance degradation and challenges in optimal placement. To address these challenges, we present an analytical, AI-driven pipeline that accurately determines the optimal allocation of adapters in single-node setups. This allocation maximize...

ID: 2508.08343v1 cs.PF, cs.AI, cs.CL

arXiv PDF