Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation

2509.02970v1 cs.LG, math.OC 2025-09-05

Авторы:

Kaoru Otsuka, Yuki Takezawa, Makoto Yamada

Резюме на русском

## Контекст Federated Learning (FL) является методом обучения моделей распределенной модели, который позволяет клиентам обучать модель вместе, не раскрывая их локальные данные. Однако FL подвержен атакам от клиентов-байзентов, которые могут исказить обучение сети. Несмотря на то, что существуют методы, которые обеспечивают робастность FL к байзентовым атакам, они обычно предполагают, что все клиенты участвуют в обучении. Это предположение не реально в реальных условиях, где клиенты могут быть недоступны или использовать ограниченные ресурсы связи. Такие факторы создают задачу для FL, которая должна учитывать распределенность ресурсов и выжимать максимум из них. Наша работа фокусируется на этих проблемах, предлагая новую модель, которая обеспечивает робастность к байзентовым атакам при работе в условиях неполной участия клиентов. ## Метод Мы предлагаем новую методологию Delayed Momentum Aggregation (DMA), которая использует моментум (инерцию) в роли дополнительного способа агрегации градиентов в FL. Этот подход применяет новую моментум от активных клиентов и добавляет к этому обновлению градиенты от отсутствующих клиентов, если они попадают в последнюю активную период. Благодаря этому, мы можем восстановить свойства безопасности и точности, даже при существенном отсутствии клиентов. Мы используем оптимизатор D-Byz-SGDM (Delayed Byzantine-robust SGD with Momentum), который реализует DMA в ходе обучения FL. Мы определяем фундаментальные новые нижние границы для случая неполного участия клиентов и проверяем, что DMA удовлетворяет этим гарантиям. ## Результаты Мы проверяем DMA на широком спектре задач обучения с высокой точностью и робастностью к атакам. Мы проводим эксперименты в условиях различных атак байзентовых клиентов, в том числе систематических и неструктурированных атак. Наши результаты показывают, что DMA не только обеспечивает робастность к байзентовым атакам, но и поддерживает высокую точность и скорость обучения, даже в условиях неполного участия клиентов. Мы показываем, что DMA стабильно работает при различных уровнях участия клиентов и не влияет на качество модели, даже при длительных продолжительностях отсутствия клиентов. ## Значимость Метод DMA позволяет решать проблемы FL с распределенным обучением в реальных условиях, где клиенты могут иметь ограниченную доступность и неполное участие. Он особенно полезен в сценариях, где клиенты используют ограниченные ресурсы связи, или где существуют большое количество клиентов, чье участие может быть непостоянным. DMA также оказывается эффективным в обеспечении робастности к байзентовым ата

Abstract

Federated Learning (FL) allows distributed model training across multiple clients while preserving data privacy, but it remains vulnerable to Byzantine clients that exhibit malicious behavior. While existing Byzantine-robust FL methods provide strong convergence guarantees (e.g., to a stationary point in expectation) under Byzantine attacks, they typically assume full client participation, which is unrealistic due to communication constraints and client availability. Under partial participation, existing methods fail immediately after the sampled clients contain a Byzantine majority, creating a fundamental challenge for sparse communication. First, we introduce delayed momentum aggregation, a novel principle where the server aggregates the most recently received gradients from non-participating clients alongside fresh momentum from active clients. Our optimizer D-Byz-SGDM (Delayed Byzantine-robust SGD with Momentum) implements this delayed momentum aggregation principle for Byzantine-robust FL with partial participation. Then, we establish convergence guarantees that recover previous full participation results and match the fundamental lower bounds we prove for the partial participation setting. Experiments on deep learning tasks validated our theoretical findings, showing stable and robust training under various Byzantine attacks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация