Poison to Detect: Detection of Targeted Overfitting in Federated Learning

2509.11974v1 cs.CR, cs.AI 2025-09-17

Авторы:

Soumia Zohra El Mestari, Maciej Krzysztof Zuziak, Gabriele Lenzini

Резюме на русском

## Контекст Federated Learning (FL) является важной практикой в области учёта приватности данных, позволяющей обучать модели машинного обучения на распределённых данных, без прямого доступа к этим данным. Однако FL не является безусловно безопасным. Эксперименты показали, что непосредственное взаимодействие между клиентом и сервером может привести к нежелательным результатам, включая угрозу целостности локальных моделей клиента. Одна из особенностей этого риска - принудительное создание целевых моделей, которые могут нарушать конфиденциальность данных. Данная работа посвящена изучению ситуаций, в которых манипуляции с процессом синтеза моделей могут привести к целевому переобучению. Наша мотивация в том, чтобы разработать методы, позволяющие клиентам диагностировать и обнаруживать целевые модели на ранней стадии, чтобы предотвратить передачу любых конфиденциальных данных. ## Метод Мы предлагаем многомерный подход к обнаружению целевых моделей в FL. Методы включают: (a) **label flipping** — отрицательная метка искажается, чтобы выявить влияние на общую модель; (b) **backdoor trigger injection** — специальные триггеры внедряются в локальные данные для отслеживания влияния на общую модель; (c) **model fingerprinting** — модели сравниваются с исходной версией, чтобы выявить незначительные сдвиги, которые могут указывать на целевые модели. Эти методы используют статистические меры для определения подозрительных изменений в модели, обнаруживая целевые модели в защищённом FL-контексте. ## Результаты Мы провели эксперименты на нескольких датасетах, в том числе MNIST, CIFAR-10 и FEMNIST, используя различные сценарии атак. Мы обнаружили, что три метода — label flipping, backdoor trigger injection и model fingerprinting — демонстрируют неплохую точность в обнаружении целевых моделей. Однако они отличаются по своим вычислительным затратам, задержке обнаружения и показателям false-positive. Метод label flipping имеет высокую скорость обнаружения, но с более высоким риском false-positive. Метод backdoor trigger injection обеспечивает лучшую точность, но с большей задержкой обнаружения. Model fingerprinting демонстрирует высокую точность и низкий false-positive, но имеет более высокие вычислительные затраты. ## Значимость Методы, предложенные в данной работе, могут быть применены для обнаружения целевых моделей не только в FL, но и в других контекстах, где конфиденциальность локальных данных является критичной. Такие методы могут помочь уменьшить риск информационного утечки в системах, где локальные модели используются для обучения в облачных средах. Также, наши результаты показывают, что раннее обнаружение целевых моделей может существенно уменьшить потери, связанные с тем, что модель будет использоваться для неж

Abstract

Federated Learning (FL) enables collaborative model training across decentralised clients while keeping local data private, making it a widely adopted privacy-enhancing technology (PET). Despite its privacy benefits, FL remains vulnerable to privacy attacks, including those targeting specific clients. In this paper, we study an underexplored threat where a dishonest orchestrator intentionally manipulates the aggregation process to induce targeted overfitting in the local models of specific clients. Whereas many studies in this area predominantly focus on reducing the amount of information leakage during training, we focus on enabling an early client-side detection of targeted overfitting, thereby allowing clients to disengage before significant harm occurs. In line with this, we propose three detection techniques - (a) label flipping, (b) backdoor trigger injection, and (c) model fingerprinting - that enable clients to verify the integrity of the global aggregation. We evaluated our methods on multiple datasets under different attack scenarios. Our results show that the three methods reliably detect targeted overfitting induced by the orchestrator, but they differ in terms of computational complexity, detection latency, and false-positive rates.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Poison to Detect: Detection of Targeted Overfitting in Federated Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация