Poison to Detect: Detection of Targeted Overfitting in Federated Learning
2509.11974v1
cs.CR, cs.AI
2025-09-17
Авторы:
Soumia Zohra El Mestari, Maciej Krzysztof Zuziak, Gabriele Lenzini
Резюме на русском
## Контекст
Federated Learning (FL) является важной практикой в области учёта приватности данных, позволяющей обучать модели машинного обучения на распределённых данных, без прямого доступа к этим данным. Однако FL не является безусловно безопасным. Эксперименты показали, что непосредственное взаимодействие между клиентом и сервером может привести к нежелательным результатам, включая угрозу целостности локальных моделей клиента. Одна из особенностей этого риска - принудительное создание целевых моделей, которые могут нарушать конфиденциальность данных. Данная работа посвящена изучению ситуаций, в которых манипуляции с процессом синтеза моделей могут привести к целевому переобучению. Наша мотивация в том, чтобы разработать методы, позволяющие клиентам диагностировать и обнаруживать целевые модели на ранней стадии, чтобы предотвратить передачу любых конфиденциальных данных.
## Метод
Мы предлагаем многомерный подход к обнаружению целевых моделей в FL. Методы включают: (a) **label flipping** — отрицательная метка искажается, чтобы выявить влияние на общую модель; (b) **backdoor trigger injection** — специальные триггеры внедряются в локальные данные для отслеживания влияния на общую модель; (c) **model fingerprinting** — модели сравниваются с исходной версией, чтобы выявить незначительные сдвиги, которые могут указывать на целевые модели. Эти методы используют статистические меры для определения подозрительных изменений в модели, обнаруживая целевые модели в защищённом FL-контексте.
## Результаты
Мы провели эксперименты на нескольких датасетах, в том числе MNIST, CIFAR-10 и FEMNIST, используя различные сценарии атак. Мы обнаружили, что три метода — label flipping, backdoor trigger injection и model fingerprinting — демонстрируют неплохую точность в обнаружении целевых моделей. Однако они отличаются по своим вычислительным затратам, задержке обнаружения и показателям false-positive. Метод label flipping имеет высокую скорость обнаружения, но с более высоким риском false-positive. Метод backdoor trigger injection обеспечивает лучшую точность, но с большей задержкой обнаружения. Model fingerprinting демонстрирует высокую точность и низкий false-positive, но имеет более высокие вычислительные затраты.
## Значимость
Методы, предложенные в данной работе, могут быть применены для обнаружения целевых моделей не только в FL, но и в других контекстах, где конфиденциальность локальных данных является критичной. Такие методы могут помочь уменьшить риск информационного утечки в системах, где локальные модели используются для обучения в облачных средах. Также, наши результаты показывают, что раннее обнаружение целевых моделей может существенно уменьшить потери, связанные с тем, что модель будет использоваться для неж
Abstract
Federated Learning (FL) enables collaborative model training across
decentralised clients while keeping local data private, making it a widely
adopted privacy-enhancing technology (PET). Despite its privacy benefits, FL
remains vulnerable to privacy attacks, including those targeting specific
clients. In this paper, we study an underexplored threat where a dishonest
orchestrator intentionally manipulates the aggregation process to induce
targeted overfitting in the local models of specific clients. Whereas many
studies in this area predominantly focus on reducing the amount of information
leakage during training, we focus on enabling an early client-side detection of
targeted overfitting, thereby allowing clients to disengage before significant
harm occurs. In line with this, we propose three detection techniques - (a)
label flipping, (b) backdoor trigger injection, and (c) model fingerprinting -
that enable clients to verify the integrity of the global aggregation. We
evaluated our methods on multiple datasets under different attack scenarios.
Our results show that the three methods reliably detect targeted overfitting
induced by the orchestrator, but they differ in terms of computational
complexity, detection latency, and false-positive rates.
Ссылки и действия
Дополнительные ресурсы: