Hammer and Anvil: A Principled Defense Against Backdoors in Federated Learning

2509.08089v1 cs.LG, cs.CR, 68T99 2025-09-12
Авторы:

Lucas Fenaux, Zheng Wang, Jacob Yan, Nathan Chung, Florian Kerschbaum

Резюме на русском

#### Контекст Federated Learning (FL) — это распределенная методика обучения нейросетевых моделей, в которой множество клиентов объединяют усилия для построения общей модели. Такой подход позволяет эффективно использовать данные, не раскрывая их, что особенно полезно в ситуациях, когда данные являются конфиденциальными или защищенными. Однако распределенность FL делает его уязвимым для атак, особенно нападениями с целью внедрения backdoor (атаки активируемые специфическим триггером). Эти атаки позволяют вредоносным клиентам внедрить злонамеренное поведение в общую модель, которое активируется во время предсказаний. Несмотря на многочисленные работы по созданию защит от таких атак, до сих пор не существует надежного метода, особенно в отношении адаптивных атак, которые могут адаптироваться к защите. #### Метод В данной работе предлагается новая модель адаптивного атакующего клиента, которая превзошла предыдущие модели по степени силы. Эта модель демонстрирует, что достаточно только одного или двух вредоносных клиентов (из 20), чтобы сломать востребованные сегодня методы защиты. Далее предлагается архитектура **Hammer and Anvil**, которая сочетает две независимые защитные стратегии: **Krum** и **Trimmed Mean**. **Krum** — это метод выбора наиболее достоверных вкладов клиентов, который оценивает качество статистически, а **Trimmed Mean** удаляет крайние значения в векторах обновлений модели, чтобы уменьшить влияние аномалий. Используя различные комбинации этих методов, авторы показали, как можно построить решение, позволяющее справиться с широким классом атак. #### Результаты Авторы провестили эксперименты с использованием нескольких сценариев обучения и атак. Использовались данные MNIST, CIFAR-10 и FMNIST. Защита **Krum+** (сочетание Krum и Trimmed Mean) вы mostrar más #### Контекст Federated Learning (FL) — это распределенная методика обучения нейросетевых моделей, в которой множество клиентов объединяют усилия для построения общей модели. Такой подход позволяет эффективно использовать данные, не раскрывая их, что особенно полезно в ситуациях, когда данные являются конфиденциальными или защищенными. Однако распределенность FL делает его уязвимым для атак, особенно нападениями с целью внедрения backdoor (атаки активируемые специфическим триггером). Эти атаки позволяют вредоносным клиентам внедрить злонамеренное поведение в общую модель, которое активируется во время предсказаний. Несмотря на многочисленные работы по созданию защит от таких атак, до сих пор не существует надежного метода, особенно в отношении адаптивных атак, которые могут адаптироваться к защите. #### Метод В данной работе предлагается новая модель адаптивного атакующ

Abstract

Federated Learning is a distributed learning technique in which multiple clients cooperate to train a machine learning model. Distributed settings facilitate backdoor attacks by malicious clients, who can embed malicious behaviors into the model during their participation in the training process. These malicious behaviors are activated during inference by a specific trigger. No defense against backdoor attacks has stood the test of time, especially against adaptive attackers, a powerful but not fully explored category of attackers. In this work, we first devise a new adaptive adversary that surpasses existing adversaries in capabilities, yielding attacks that only require one or two malicious clients out of 20 to break existing state-of-the-art defenses. Then, we present Hammer and Anvil, a principled defense approach that combines two defenses orthogonal in their underlying principle to produce a combined defense that, given the right set of parameters, must succeed against any attack. We show that our best combined defense, Krum+, is successful against our new adaptive adversary and state-of-the-art attacks.

Ссылки и действия