Scaling Performance of Large Language Model Pretraining

2509.05258v1 cs.DC, cs.AI 2025-09-09

Авторы:

Alexander Interrante-Grant, Carla Varela-Rosa, Suhaas Narayan, Chris Connelly, Albert Reuther

Резюме на русском

## Контекст Large language models (LLMs) являются одними из самых эффективных инструментов в области натурального языкового процессинга, применяющихся в таких областях, как синтез речи, генерация текста, перевод и генеративные модели изображений. Однако их обучение требует высокой вычислительной мощности и значительных ресурсов. Главные исследовательские центры и компании инвестируют миллиарды долларов в суперкомпьютеры и сети связи для обучения моделей, содержащих миллиарды параметров. Тем не менее, доступная информация о том, как эффективно масштабировать такие модели и увеличить их производительность, очень ограничена. Поэтому, в данной статье мы раскрываем технические характеристики и мощь масштабирования LLMs, включая управление большими данными, распределенное обучение, методы параллелизации и оптимизацию GPU-использования. ## Метод Мы разрабатывали и проверяли методы оптимизации производительности во время обучения LLMs, сосредоточившись на распределенной среде с использованием трех типов параллелизации: широковещательной, зеркальной и параллельной. Для распределенного обучения мы использовали технологию Horovod, которая позволяет выполнять данные параллельные операции на GPU. Наша архитектура основывается на использовании широковещательных методов для распространения градиентов, а также на методах зеркального обучения для сокращения времени ожидания. Мы также развивали методы управления данными, включая разделение больших датасетов на меньшие порции, распаковку данных в память GPU и оптимизацию менедра данных. Для увеличения пропускной способности и уменьшения времени обучения мы использовали алгоритмы увеличения данных, включая аугментацию текста и параллельное упакование данных. ## Результаты Мы проверили нашу систему на датасете содержащем более 800 тысяч записей. Мы достигли скорости обучения до 1000 записей в секунду, что является одним из самых высоких показателей в области обучения LLMs. Мы оценили и проанализировали разновидности методов распределенной параллелизации и их влияние на время обучения и пропускную способность. Мы также провели эксперименты с разными стратегиями оптимизации GPU и данных, включая различные режимы памяти, глубину рабочего процесса и методы управления данными. Наши результаты показали, что наш подход к масштабированию LLMs может повысить скорость и эффективность обучения в среднем на 25–50%. ## Значимость Наша работа имеет большое значение для области глубокого обучения и LLMs. Мы предоставили детальные рекомендации по масштабированию моделей, которые могут быть поле

Abstract

Large language models (LLMs) show best-in-class performance across a wide range of natural language processing applications. Training these models is an extremely computationally expensive task; frontier Artificial Intelligence (AI) research companies are investing billions of dollars into supercomputing infrastructure to train progressively larger models on increasingly massive datasets. Unfortunately, information about the scaling performance and training considerations of these large training pipelines is scarce in public literature. Working with large-scale datasets and models can be complex and practical recommendations are scarce in the public literature for tuning training performance when scaling up large language models. In this paper, we aim to demystify the large language model pretraining pipeline somewhat - in particular with respect to distributed training, managing large datasets across hundreds of nodes, and scaling up data parallelism with an emphasis on fully leveraging available GPU compute capacity.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Scaling Performance of Large Language Model Pretraining

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация