📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall
2025-09-05Авторы:
Avinash Maurya, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae
## Контекст
Обучение глубоких машинных сетей становится все более сложным из-за постоянного увеличения размеров глубоких нейронных сетей. Этот рост быстрее происходит, чем развитие технических решений, в частности, расширения памяти GPU. Таким образом, тренировка моделей, превышающих объем доступной памяти GPU, становится задачей, требующей разработки эффективных методов. Одним из ключевых подходов является использование многоуровневых стратегий оффлоада, включающих в себя использование различных типов памяти и дисков. Однако, несмотря на то, что такие методы могут оптимизировать частично процесс тренировки, они часто влияют на накопление оверхедов, в том числе из-за типичных ограничений в скорости доступа к памяти и диску. Данная работа ориентирована на разработку нового метода, который бы минимизировал эти проблемы и позволил эффективно обучать модели, превышающие размеры обычного GPU.
## Метод
Методология MLP-Offload основывается на многоуровневой стратегии оффлоада, которая предлагает разделение данных по нескольким уровням хранения, включая CPU, GPU и внешнюю память. Технически, MLP-Offload использует оптимизированную стратегию асинхронного чтения и записи, чтобы минимизировать оверхеды в процессе обучения. Особенностью этого подхода является использование многопутевого оффлоада, которое позволяет синхронизировать работу нескольких GPU без необходимости ожидания завершения операций ввода-вывода. Также, проект использует техники кэширования и управления конкурентностью, чтобы обеспечить быструю и эффективную обработку данных. Такой метод позволяет уменьшить влияние I/O-оверхедов на общий процесс обучения, сохранив высокую производительность.
## Результаты
Набор экспериментов проводился на моделях с размерами до 280 миллиардов параметров. Оценка производительности показала, что MLP-Offload уменьшает время итерации обучения в среднем в 2,5 раза по сравнению с другими технологиями, такими как ZeRO. Это достигается благодаря эффективному управлению вводом-выводом, которое минимизирует задержки в обработке данных. Также были измерены ресурсоемкость и общее влияние на систему, показав, что MLP-Offload не только улучшает скорость, но и эффективно использует доступные ресурсы.
## Значимость
MLP-Offload имеет значительное значение для обучения глубоких нейронных сетей, особенно для моделей, превышающих размеры доступной GPU-памяти. Он может быть применен в сценариях с ограниченными ресурсами, включая обучение моделей для машинного обучения в облачных сервисах и высокопроизводительных вычислениях.
Annotation:
Training LLMs larger than the aggregated memory of multiple GPUs is
increasingly necessary due to the faster growth of LLM sizes compared to GPU
memory. To this end, multi-tier host memory or disk offloading techniques are
proposed by state of art. Despite advanced asynchronous multi-tier read/write
strategies, such offloading strategies result in significant I/O overheads in
the critical path of training, resulting in slower iterations. To this end, we
propose MLP-Offload, a novel multi-level, ...