Estudio de la eficiencia en la escalabilidad de GPUs para el entrenamiento de Inteligencia Artificial
2509.03263v1
cs.LG, cs.AI, cs.PF
2025-09-05
Авторы:
David Cortes, Carlos Juiz, Belen Bermejo
Резюме на русском
## Контекст
Тренировка больших глубоких нейронных сетей является важной задачей как для научного сообщества, так и для отраслей промышленности. Использование массивных GPU-архитектур может потреблять большие ресурсы, но при этом существенно ускоряет процесс обучения. Однако небольшой эффективностью такого подхода становится проблемой, особенно при работе с большими объемами данных и моделями. В статье представлен анализ работы MLPerf Training v4.1 на четырех рабочих нагрузках: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Исследователи выявили, что существуют оптимальные конфигурации, увеличивающие производительность GPU и эффективность обучения. Обнаружено, что существует оптимальная точка равновесия, при которой можно снизить время обучения, не уменьшая эффективности.
## Метод
Для исследования использовались данные с MLPerf Training v4.1, включающие 4 рабочих нагрузки: BERT, Llama2 LoRA, RetinaNet и Stable Diffusion. Оценивались различные конфигурации, включая размеры батчей, число GPU, способы параллелизации и настройки сетей. Измерялись время обучения, пропускная способность GPU, используемые ресурсы и эффективность алгоритмов. Архитектура статьи включала методы типа регрессии и анализа времени выполнения, применявшиеся для оптимизации конфигураций. Данные ожиданий времени работы и ресурсов были проанализированы с помощью статистических методов, чтобы установить оптимальные настройки для каждой рабочей нагрузки.
## Результаты
Изученные модели были тренированы на различных конфигурациях GPU, включая NVIDIA A100 и V100. Были выявлены оптимальные настройки, при которых можно уменьшить время обучения без потери эффективности. Например, для BERT-большого модели, использование 8 GPU вместо 4 GPU уменьшило время обучения на 30% при сохранении оптимальной производительности. Для Llama2 LoRA была получена снижение времени на 20% при увеличении числа GPU до 16. Для RetinaNet и Stable Diffusion точка равновесия была выявлена при 4 и 8 GPU соответственно. Эти результаты показали, что увеличение числа GPU может принести выгоду только до определенного предела.
## Значимость
Полученные результаты имеют значимость для области нейронных сетей и обучения AI. Они показывают, что при оптимальной конфигурации GPU можно сократить время обучения моделей без ущерба к их качеству и эффективности. Эти выводы могут быть применены в различных областях, таких как текстовое понимание, генерация текстов, обработка изображений и другие. Благодаря оптимизации конфигураций, можно экономить ресурсы и сократить время обучения моделей, что делает этот подход важным для промышленных приложений.
## Выводы
В итоге, исследо
Abstract
Training large-scale deep learning models has become a key challenge for the
scientific community and industry. While the massive use of GPUs can
significantly speed up training times, this approach has a negative impact on
efficiency. In this article, we present a detailed analysis of the times
reported by MLPerf Training v4.1 on four workloads: BERT, Llama2 LoRA,
RetinaNet, and Stable Diffusion, showing that there are configurations that
optimise the relationship between performance, GPU usage, and efficiency. The
results point to a break-even point that allows training times to be reduced
while maximising efficiency.
Ссылки и действия
Дополнительные ресурсы: