CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks
2509.19855v1
eess.SY, cs.AI, cs.NI, cs.SY
2025-09-26
Авторы:
Jiewei Chen, Xiumei Deng, Zehui Xiong, Shaoyong Guo, Xuesong Qiu, Ping Wang, Dusit Niyato
Резюме на русском
## Контекст
Увеличение спроса на интеллектуальные мобильные приложения привело к необходимости использования многоагентного взаимодействия с трансформер-основанными большими языковыми моделями (LLM) в мобильных сетях edge computing (MEC). Однако обучение таких моделей в таких средах сталкивается с рядом проблем: значительными вычислительными затратами, высокой задержкой end-to-end и ограниченной общей соответствия модели. Одним из основных задач модели CollaPipe является улучшение эффективности вычислений и уменьшение задержек во время обучения лэнгвидж-моделей в хетерогенных и динамичных сетях.
## Метод
CollaPipe предлагает гибридный подход к распределенному обучению, который объединяет сегментированную последовательность с переменной длиной (половина модели трансформера - на устройствах пользователей, а другая половина - на граничных серверах) с федеративным слиянием моделей. Для производительности и эффективности модели в CollaPipe используется адаптивное разделение модели на сегменты с разной длиной, подход для оптимизации ресурсов (микро-батчей, скорости передачи и питающего уровня), а также формулировка задач по оптимизации модели. Это дает возможность улучшить эффективность обучения и сократить задержки в системе.
## Результаты
В ходе экспериментов по обучению сети CollaPipe для трансформеров и BERT в различных задачах показано, что модель CollaPipe улучшает вычислительную эффективность на 15.09%, сокращает задержки в системе на 48.98%, и уменьшает использование памяти на устройствах до половины. Эти результаты указывают на эффективность CollaPipe в оптимизации обучения моделей в средах с ограниченными ресурсами и динамическими условиями сети.
## Значимость
Модель CollaPipe может быть применена в различных сценариях, включая интеллектуальные приложения, где требуется уменьшение задержек и высокая производительность. Особенно эффективна в сетях с низким каналом передачи данных или где требуется реалистическое обучение моделей в реальном времени. Модель CollaPipe создает преимущества в гибкости и эффективности для обучения моделей в сетях с требованиями к высокой пропускной способности и минимальной задержке.
## Выводы
Результаты CollaPipe показывают, что она эффективно решает задачи оптимизации во время обучения трансформеров в хетерогенных MEC-сетях. Будущие исследования будут ориентированы на расширение CollaPipe для других моделей, таких как GPT-3, и на изучение поведения модели в более сложных сетях с многоуровневыми агентами.
Abstract
The increasing demand for intelligent mobile applications has made
multi-agent collaboration with Transformer-based large language models (LLMs)
essential in mobile edge computing (MEC) networks. However, training LLMs in
such environments remains challenging due to heavy computation, high end-to-end
latency, and limited model generalization. We introduce CollaPipe, a hybrid
distributed learning framework that integrates collaborative pipeline
parallelism with federated aggregation to support self-evolving intelligent
networks. In CollaPipe, the encoder part is adaptively partitioned into
variable-sized segments and deployed across mobile devices for
pipeline-parallel training, while the decoder is deployed on edge servers to
handle generative tasks. Then we perform global model update via federated
aggregation. To enhance training efficiency, we formulate a joint optimization
problem that adaptively allocates model segments, micro-batches, bandwidth, and
transmission power. We derive and use a closed-form convergence bound to design
an Dynamic Segment Scheduling and Resource Allocation (DSSDA) algorithm based
on Lyapunov optimization, ensuring system stability under long-term
constraints. Extensive experiments on downstream tasks with Transformer and
BERT models show that CollaPipe improves computation efficiency by up to
15.09%, reduces end-to-end latency by at least 48.98%, and cuts single device
memory usage by more than half, enabling online learning in heterogeneous and
dynamic communication environments.