📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture
2025-08-27Авторы:
Anderson de Lima Luiz, Shubham Vijay Kurlekar, Munir Georges
## Контекст
Область исследований связана с развитием высокопроизводительных вычислительных систем (HPC) для развертывания и интерпретации больших языковых моделей (LLMs). Нейронные сети с гигантскими параметрами требуют высоких производительности, гибкости и скорости, чтобы обеспечить реальноспособность в таких приложениях, как чат-боты, генерация текста и контекстное понимание. Однако существуют проблемы с ресурсами и ресурсной оптимизацией, которые могут привести к замедлению отклика и недостаточной масштабируемости. Мотивация заключается в создании прозрачной, многоузловой системы, способной эффективно распределять ресурсы и управлять ими в целях масштабирования и улучшения производительности.
## Метод
Разработанная система основывается на Simple Linux Utility for Resource Management (SLURM), позволяющем управлять ресурсами на многоузловых кластерах. Использованы containerized microservices для упаковки и выполнения моделей, что обеспечивает динамическую перераспределяемость ресурсов. Особое внимание уделено архитектуре REST API для поддержки взаимодействия с моделями, включая одиночные и многострочные запросы. Также включены расширенные рабочие процессы, такие как "tribunal" refinement, для повышения точности и степени семантической релевантности ответов. Технологии горизонтального масштабирования и динамической трафик-реагирования использованы для обеспечения масштабируемости и отказоустойчивости.
## Результаты
В ходе экспериментов проводилось исследование производительности различных моделей LLM, включая Llama 3.2 (1B и 3B параметров) и Llama 3.1 (8B и 70B параметров). Были измерены показатели пропускной способности, задержки и конкурентности. Smaller models (Llama 3.2, 1B и 3B) показали возможность обслуживать до 128 запросов в минуту с задержкой менее 50 мс. В то же время, large models (Llama 3.1, 8B и 70B) показали значительное замедление и начали отказываться от обслуживания с лишь двумя пользователями, при задержке более 2 секунд. Эти результаты подтвердили высокую эффективность архитектуры для small-scale интерфейсов, но также показали ограничения для больших моделей.
## Значимость
Разработанная архитектура отличается широкой многозначностью: она может применяться в сферах NLP, чат-ботов, генерации текста и даже в сложных сценариях с "tribunal" refinement. Наиболее значимая преимущественная сторона заключается в том, что она позволяет сочетать масштабируемость, отказоустойчивость и скорость взаимодействия. Это делает ее привлекательной для реального применения в реальном времени. Будущие исследования могут сосредоточиться на улучшении системы для более
Annotation:
This work elaborates on a High performance computing (HPC) architecture based
on Simple Linux Utility for Resource Management (SLURM) [1] for deploying
heterogeneous Large Language Models (LLMs) into a scalable inference engine.
Dynamic resource scheduling and seamless integration of containerized
microservices have been leveraged herein to manage CPU, GPU, and memory
allocations efficiently in multi-node clusters. Extensive experiments, using
Llama 3.2 (1B and 3B parameters) [2] and Llama 3.1 (...