BadFU: Backdoor Federated Learning through Adversarial Machine Unlearning

2508.15541v1 cs.CR, cs.LG 2025-08-23
Авторы:

Bingguang Lu, Hongsheng Hu, Yuantian Miao, Shaleeza Sohail, Chaoxiang He, Shuo Wang, Xiao Chen

Резюме на русском

#### Контекст Federated learning (FL) является децентрализованной методологией обучения, позволяющей нескольким клиентам обучать общую модель, не раскрывая локальные данные. Она нашла применение в различных сферах, где необходимо обеспечить приватность данных и соблюдение законов. Однако из-за роста запросов на машинное "учту" (machine unlearning), которое удаляет влияние определенных данных из обученной модели, появились новые вызовы в области FL. Удаление данных может стать целью атак, когда адверсари стремятся повлиять на глобальную модель. В этой статье рассматривается первая попытка использовать вредоносные запросы на машинное "учту" для внедрения уязвимостей в FL. #### Метод Стратегия "BadFU" (Backdoor Federated Unlearning) использует обычный процесс обучения с помощью параллельного инструмента для внедрения уязвимостей. Атакующий клиент обучает глобальную модель с помощью обычных данных и специальных "заглушек" (camouflage samples), которые могут быть удалены впоследствии. Если клиент запрашивает удаление этих заглушек, глобальная модель переходит в уязвимый состояние. Это происходит благодаря тому, что модель настраивается под удаление, но сохраняет подключенные компоненты, которые могут быть использованы для вредоносного воздействия. #### Результаты Опытные исследования подтверждают эффективность BadFU в ослаблении глобальной модели FL. Использовались различные FL-платформы и стратегии машинного "учту", чтобы проверить модель BadFU. Эксперименты показали, что злоумышленник может внедрить вредоносную функциональность в глобальную модель FL, которая при масштабировании может привести к серьезным последствиям. #### Значимость Результаты BadFU открывают возможность изучения новых уязвимостей в FL, особенно при использовании машинного "учту". Эта стратегия может использоваться в области кибербезопасности для тестирования и усовершенствования систем FL. Более того, BadFU может помочь разработчикам новых методов защиты FL от атак в рамках машинного "учту". #### Выводы BadFU подчеркивает необходимость развития безопасных методов машинного "учту" в FL. Будущие исследования будут сфокусированы на разработке методов, которые смогут эффективно защищать FL-системы от подобных атак и оптимизировать процесс удаления данных без потерь в безопасности.

Abstract

Federated learning (FL) has been widely adopted as a decentralized training paradigm that enables multiple clients to collaboratively learn a shared model without exposing their local data. As concerns over data privacy and regulatory compliance grow, machine unlearning, which aims to remove the influence of specific data from trained models, has become increasingly important in the federated setting to meet legal, ethical, or user-driven demands. However, integrating unlearning into FL introduces new challenges and raises largely unexplored security risks. In particular, adversaries may exploit the unlearning process to compromise the integrity of the global model. In this paper, we present the first backdoor attack in the context of federated unlearning, demonstrating that an adversary can inject backdoors into the global model through seemingly legitimate unlearning requests. Specifically, we propose BadFU, an attack strategy where a malicious client uses both backdoor and camouflage samples to train the global model normally during the federated training process. Once the client requests unlearning of the camouflage samples, the global model transitions into a backdoored state. Extensive experiments under various FL frameworks and unlearning strategies validate the effectiveness of BadFU, revealing a critical vulnerability in current federated unlearning practices and underscoring the urgent need for more secure and robust federated unlearning mechanisms.

Ссылки и действия