Estudio de la eficiencia en la escalabilidad de GPUs para el entrenamiento de Inteligencia Artificial

2509.03263v1 cs.LG, cs.AI, cs.PF 2025-09-05

Авторы:

David Cortes, Carlos Juiz, Belen Bermejo

Резюме на русском

## Контекст Тренировка больших глубоких нейронных сетей является важной задачей как для научного сообщества, так и для отраслей промышленности. Использование массивных GPU-архитектур может потреблять большие ресурсы, но при этом существенно ускоряет процесс обучения. Однако небольшой эффективностью такого подхода становится проблемой, особенно при работе с большими объемами данных и моделями. В статье представлен анализ работы MLPerf Training v4.1 на четырех рабочих нагрузках: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Исследователи выявили, что существуют оптимальные конфигурации, увеличивающие производительность GPU и эффективность обучения. Обнаружено, что существует оптимальная точка равновесия, при которой можно снизить время обучения, не уменьшая эффективности. ## Метод Для исследования использовались данные с MLPerf Training v4.1, включающие 4 рабочих нагрузки: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Оценивались различные конфигурации, включая размеры батчей, число GPU, способы параллелизации и настройки сетей. Измерялись время обучения, пропускная способность GPU, используемые ресурсы и эффективность алгоритмов. Архитектура статьи включала методы типа регрессии и анализа времени выполнения, применявшиеся для оптимизации конфигураций. Данные ожиданий времени работы и ресурсов были проанализированы с помощью статистических методов, чтобы установить оптимальные настройки для каждой рабочей нагрузки. ## Результаты Изученные модели были тренированы на различных конфигурациях GPU, включая NVIDIA A100 и V100. Были выявлены оптимальные настройки, при которых можно уменьшить время обучения без потери эффективности. Например, для BERT-большого модели, использование 8 GPU вместо 4 GPU уменьшило время обучения на 30% при сохранении оптимальной производительности. Для Llama2 LoRA была получена снижение времени на 20% при увеличении числа GPU до 16. Для RetinaNet и Stable Diffusion точка равновесия была выявлена при 4 и 8 GPU соответственно. Эти результаты показали, что увеличение числа GPU может принести выгоду только до определенного предела. ## Значимость Полученные результаты имеют значимость для области нейронных сетей и обучения AI. Они показывают, что при оптимальной конфигурации GPU можно сократить время обучения моделей без ущерба к их качеству и эффективности. Эти выводы могут быть применены в различных областях, таких как текстовое понимание, генерация текстов, обработка изображений и другие. Благодаря оптимизации конфигураций, можно экономить ресурсы и сократить время обучения моделей, что делает этот подход важным для промышленных приложений. ## Выводы В итоге, исследо

Abstract

Training large-scale deep learning models has become a key challenge for the scientific community and industry. While the massive use of GPUs can significantly speed up training times, this approach has a negative impact on efficiency. In this article, we present a detailed analysis of the times reported by MLPerf Training v4.1 on four workloads: BERT, Llama2 LoRA, RetinaNet, and Stable Diffusion, showing that there are configurations that optimise the relationship between performance, GPU usage, and efficiency. The results point to a break-even point that allows training times to be reduced while maximising efficiency.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Estudio de la eficiencia en la escalabilidad de GPUs para el entrenamiento de Inteligencia Artificial

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers

PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Навигация