📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture

2025-08-27

Авторы:

Anderson de Lima Luiz, Shubham Vijay Kurlekar, Munir Georges

## Контекст Область исследований связана с развитием высокопроизводительных вычислительных систем (HPC) для развертывания и интерпретации больших языковых моделей (LLMs). Нейронные сети с гигантскими параметрами требуют высоких производительности, гибкости и скорости, чтобы обеспечить реальноспособность в таких приложениях, как чат-боты, генерация текста и контекстное понимание. Однако существуют проблемы с ресурсами и ресурсной оптимизацией, которые могут привести к замедлению отклика и недостаточной масштабируемости. Мотивация заключается в создании прозрачной, многоузловой системы, способной эффективно распределять ресурсы и управлять ими в целях масштабирования и улучшения производительности. ## Метод Разработанная система основывается на Simple Linux Utility for Resource Management (SLURM), позволяющем управлять ресурсами на многоузловых кластерах. Использованы containerized microservices для упаковки и выполнения моделей, что обеспечивает динамическую перераспределяемость ресурсов. Особое внимание уделено архитектуре REST API для поддержки взаимодействия с моделями, включая одиночные и многострочные запросы. Также включены расширенные рабочие процессы, такие как "tribunal" refinement, для повышения точности и степени семантической релевантности ответов. Технологии горизонтального масштабирования и динамической трафик-реагирования использованы для обеспечения масштабируемости и отказоустойчивости. ## Результаты В ходе экспериментов проводилось исследование производительности различных моделей LLM, включая Llama 3.2 (1B и 3B параметров) и Llama 3.1 (8B и 70B параметров). Были измерены показатели пропускной способности, задержки и конкурентности. Smaller models (Llama 3.2, 1B и 3B) показали возможность обслуживать до 128 запросов в минуту с задержкой менее 50 мс. В то же время, large models (Llama 3.1, 8B и 70B) показали значительное замедление и начали отказываться от обслуживания с лишь двумя пользователями, при задержке более 2 секунд. Эти результаты подтвердили высокую эффективность архитектуры для small-scale интерфейсов, но также показали ограничения для больших моделей. ## Значимость Разработанная архитектура отличается широкой многозначностью: она может применяться в сферах NLP, чат-ботов, генерации текста и даже в сложных сценариях с "tribunal" refinement. Наиболее значимая преимущественная сторона заключается в том, что она позволяет сочетать масштабируемость, отказоустойчивость и скорость взаимодействия. Это делает ее привлекательной для реального применения в реальном времени. Будущие исследования могут сосредоточиться на улучшении системы для более

Annotation:

This work elaborates on a High performance computing (HPC) architecture based on Simple Linux Utility for Resource Management (SLURM) [1] for deploying heterogeneous Large Language Models (LLMs) into a scalable inference engine. Dynamic resource scheduling and seamless integration of containerized microservices have been leveraged herein to manage CPU, GPU, and memory allocations efficiently in multi-node clusters. Extensive experiments, using Llama 3.2 (1B and 3B parameters) [2] and Llama 3.1 (...

ID: 2508.17814v1 cs.DC, cs.AI, 68M20, 68T50, C.4; D.4.7; I.2.7

arXiv PDF