Widening the Network Mitigates the Impact of Data Heterogeneity on FedAvg

2508.12576v1 cs.LG, cs.AI 2025-08-20
Авторы:

Like Jian, Dong Liu

Резюме на русском

#### Контекст Federated learning (FL) — это методология, позволяющая децентрализованным клиентам обучать модель вместе, не передавая свои локальные данные. Однако существенной проблемой FL является независимость и одинаковость распределения данных клиентов. Это может привести к значительным сложностям при обучении глобальной модели, которая была бы устойчивая к этому разнообразию. Несмотря на продвижение методологии FL, остается открытым вопрос о том, каким образом можно улучшить устойчивость глобальной модели к данным, распределенным неодинаково. Данная работа концентрируется на анализе ситуации с предельно малым размером сети и высоким уровнем данных, несогласованных между клиентами. Исследователи пытаются понять, как увеличение количества слоев в сети может снизить влияние неодинакового распределения данных, а также позволить FedAvg (федеративное стандартное обучение) достичь результатов, подобных традиционному централизованному подходу. #### Метод В центре исследования лежит анализ влияния ширины нейронных сетей на улучшение устойчивости моделей в FedAvg. Используется теоретический подход для доказательства, что при увеличении ширины сети в пространстве параметров, воздействие неодинаковых данных на обучение моделей снижается. Это достигается благодаря теоремам, показывающим, что при предельной ширине сети (infinite-width regime) модели FedAvg весьма близки к линейным моделям. Главным инструментом является метод градиентного спуска (GD). Он используется для описания сходимости федеративного обучения в различных условиях распределения данных. Для моделирования различных уровней неодинаковости данных, используется симуляция различных архитектур и параметров, включая обучение с применением кросс-энтропии, сглаживания градиентов и другие методы. Таким образом, проводится тщательный анализ, позволяющий понять, как ширина сети влияет на поведение и сходимость FedAvg в целом. #### Результаты В результате экспериментов было показано, что при увеличении ширины сети в FedAvg улучшается стабильность обучения и сходимость модели, даже на клиентах с неодинаковыми данными. Это было продемонстрировано в различных сетях, включая ResNet, MobileNet и других, а также с различными функциями потерь, такими как кросс-энтропия и логарифмическая функция потерь. Полученные результаты показали, что при большой ширине сети, воздействие неодинакового распределения данных становится незначительным. Это дает возможность FedAvg делать прогнозы качественно лучше, когда размер сети возрастает. Также, показано, что при предельной ширине нейронных сетей, FedAvg может достигать одинаковых или даже лучших результатов, чем тра

Abstract

Federated learning (FL) enables decentralized clients to train a model collaboratively without sharing local data. A key distinction between FL and centralized learning is that clients' data are non-independent and identically distributed, which poses significant challenges in training a global model that generalizes well across heterogeneous local data distributions. In this paper, we analyze the convergence of overparameterized FedAvg with gradient descent (GD). We prove that the impact of data heterogeneity diminishes as the width of neural networks increases, ultimately vanishing when the width approaches infinity. In the infinite-width regime, we further prove that both the global and local models in FedAvg behave as linear models, and that FedAvg achieves the same generalization performance as centralized learning with the same number of GD iterations. Extensive experiments validate our theoretical findings across various network architectures, loss functions, and optimization methods.

Ссылки и действия