📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall

2025-09-05

Авторы:

Avinash Maurya, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

## Контекст Обучение глубоких машинных сетей становится все более сложным из-за постоянного увеличения размеров глубоких нейронных сетей. Этот рост быстрее происходит, чем развитие технических решений, в частности, расширения памяти GPU. Таким образом, тренировка моделей, превышающих объем доступной памяти GPU, становится задачей, требующей разработки эффективных методов. Одним из ключевых подходов является использование многоуровневых стратегий оффлоада, включающих в себя использование различных типов памяти и дисков. Однако, несмотря на то, что такие методы могут оптимизировать частично процесс тренировки, они часто влияют на накопление оверхедов, в том числе из-за типичных ограничений в скорости доступа к памяти и диску. Данная работа ориентирована на разработку нового метода, который бы минимизировал эти проблемы и позволил эффективно обучать модели, превышающие размеры обычного GPU. ## Метод Методология MLP-Offload основывается на многоуровневой стратегии оффлоада, которая предлагает разделение данных по нескольким уровням хранения, включая CPU, GPU и внешнюю память. Технически, MLP-Offload использует оптимизированную стратегию асинхронного чтения и записи, чтобы минимизировать оверхеды в процессе обучения. Особенностью этого подхода является использование многопутевого оффлоада, которое позволяет синхронизировать работу нескольких GPU без необходимости ожидания завершения операций ввода-вывода. Также, проект использует техники кэширования и управления конкурентностью, чтобы обеспечить быструю и эффективную обработку данных. Такой метод позволяет уменьшить влияние I/O-оверхедов на общий процесс обучения, сохранив высокую производительность. ## Результаты Набор экспериментов проводился на моделях с размерами до 280 миллиардов параметров. Оценка производительности показала, что MLP-Offload уменьшает время итерации обучения в среднем в 2,5 раза по сравнению с другими технологиями, такими как ZeRO. Это достигается благодаря эффективному управлению вводом-выводом, которое минимизирует задержки в обработке данных. Также были измерены ресурсоемкость и общее влияние на систему, показав, что MLP-Offload не только улучшает скорость, но и эффективно использует доступные ресурсы. ## Значимость MLP-Offload имеет значительное значение для обучения глубоких нейронных сетей, особенно для моделей, превышающих размеры доступной GPU-памяти. Он может быть применен в сценариях с ограниченными ресурсами, включая обучение моделей для машинного обучения в облачных сервисах и высокопроизводительных вычислениях.

Annotation:

Training LLMs larger than the aggregated memory of multiple GPUs is increasingly necessary due to the faster growth of LLM sizes compared to GPU memory. To this end, multi-tier host memory or disk offloading techniques are proposed by state of art. Despite advanced asynchronous multi-tier read/write strategies, such offloading strategies result in significant I/O overheads in the critical path of training, resulting in slower iterations. To this end, we propose MLP-Offload, a novel multi-level, ...

ID: 2509.02480v1 cs.DC, cs.AI, cs.LG, H.2.0; E.2; I.2.11

arXiv PDF