AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models

2509.23722v1 cs.DC, cs.AI 2025-10-01

Авторы:

Jihu Guo, Tenghui Ma, Wei Gao, Peng Sun, Jiaxing Li, Xun Chen, Yuyang Jin, Dahua Lin

Резюме на русском

## Контекст Повышение эффективности обучения больших языковых моделей (LLM) является важной задачей в искусственном интеллекте. Одним из ключевых подходов для решения этой задачи является pipeline parallelism, который позволяет распределять вычислительные задачи по нескольким узлам. Однако, при росте сложности моделей и их разнообразии возникают проблемы, такие как "pipeline bubbles" (пустые промежутки во времени, когда некоторые узлы остаются неактивными). Эти проблемы снижают эффективность процесса обучения. Традиционные подходы к решению этой проблемы ограничиваются исключительно оптимизацией графа модели или резервированием ресурсов, не учитывая целостную оптимизацию моделей, размещения и загрузки. Это приводит к ограниченным улучшениям производительности или даже к ее ухудшению. Наша цель — разработать систему, которая адаптивно регулирует процессы параллелизма, сочетая модельное разделение, местонахождение и загрузку. ## Метод Мы предлагаем AdaPtis, систему для обучения LLMs, основанную на адаптивном pipeline parallelism. AdaPtis включает в себя три основных компонента. Во-первых, **pipeline performance model**, который строится на основе расчетов узлов, сетевой задержки и параллельных вычислений. Этот модельный подход позволяет точно оценивать производительность и характеристики работы системы. Во-вторых, **joint optimization framework**, которое одновременно координирует моделирование, размещение и загрузку. Это позволяет максимизировать эффективность и сбалансировать нагрузку. В-третьих, мы разработали **unified pipeline executor**, который позволяет выполнять разные стратегии параллелизма в единой системе. ## Результаты Мы провели эксперименты на различных моделях языковых моделей, включая BERT, GPT и другие. Обучение проводилось на различных масштабах, от небольших моделей до масштабных LLM. У нас были сравнения с Megatron-LM I-1F1B, и результаты показали существенные улучшения. Например, на модели GPT-3 с 175 миллиардов параметров мы достигли скоростного прироста 1.42x (с максимальным приростом 2.14x). Эти результаты свидетельствуют о том, что AdaPtis эффективно справляется с тем, чтобы устранить "pipeline bubbles" и оптимизировать целостный процесс обучения. ## Значимость Предложенная система AdaPtis имеет широкое применение в обучении больших моделей интеллектуальных систем. Она улучшает производительность, сокращает время обучения и уменьшает затраты ресурсов. Одним из основных преимуществ является комбинация трех ключевых аспектов: моделирования, размещения и загрузки, что обеспечивает более эффективное использование ресурсов. Мы видим потенциал AdaPtis в улучшении обучения LLMs в различных сценариях, в то

Abstract

Pipeline parallelism is widely used to train large language models (LLMs). However, increasing heterogeneity in model architectures exacerbates pipeline bubbles, thereby reducing training efficiency. Existing approaches overlook the co-optimization of model partition, model placement, and workload scheduling, resulting in limited efficiency improvement or even performance degradation. To respond, we propose AdaPtis, an LLM training system that supports adaptive pipeline parallelism. First, we develop a pipeline performance model to accurately estimate training throughput. Second, AdaPtis jointly optimizes model partition, model placement, and workload scheduling policies guided by this performance model. Third, we design a unified pipeline executor that efficiently supports the execution of diverse pipeline strategies. Extensive experiments show that AdaPtis achieves an average speedup of 1.42x (up to 2.14x) over Megatron-LM I-1F1B across various LLM architectures and scales.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация