From Research to Reality: Feasibility of Gradient Inversion Attacks in Federated Learning

2508.19819v1 cs.CR, cs.AI, cs.LG 2025-08-29
Авторы:

Viktor Valadi, Mattias Åkesson, Johan Östman, Salman Toor, Andreas Hellander

Резюме на русском

## Контекст Federated learning (FL) — это метод обучения моделей с помощью распределенных данных, где клиенты обучают модель локально и делят градиенты с сервером. Однако этот процесс подвержен атакам "gradient inversion", которые могут раскрыть информацию о локальных данных клиентов. Несмотря на появление многих исследований в этой области, остаются вопросы относительно реальности этих атак в условиях реального применения FL. Например, большинство работ ориентированы на уязвимости моделей в режиме инференса, где отключены узколочесткие механизмы, такие как dropout и batch normalization с динамическими статистиками. Наше исследование ориентировано на понимание, как архитектура и тип рабочего режима FL влияют на возможность этих атак в более реалистичных условиях. ## Метод Мы проводим систематический анализ уязвимости федеративных моделей в различных условиях обучения. Для этого используются различные модели, включая глубокие нейросети для классификации изображений и продвинутые модели для обнаружения объектов. Мы используем два основных подхода: атаки с градиентами в режиме инференса (где условия сильно упрощены) и атаки в режиме обучения с учетом реальных условий. Наша методология включает разработку двух новых атак, оптимизированных для различных уровней знаний у атакующего, и подробный эксперимент на модели детектирования объектов в реальном применении. ## Результаты Мы показали, что успешные атаки возможны только при сочетании нескольких условий в архитектуре моделей, включая их ширину, наличие skip-связей и применение pre-activation normalization. Кроме того, мы проверили эффективность нашего атакующего подхода на реальной модели детектирования объектов, где удалось получить успешный градиентный инверсионный атаку только при указанных условиях. Однако, при использовании реальных условий, обнаружено, что сильно ухудшается эффективность таких атак. ## Значимость Наши результаты имеют практическое значение для оценки риска атак в FL. Мы показали, что некоторые архитектурные решения могут значительно усиливать или слабеить уязвимость моделей к таким атакам. Эти находки полезны для разработчиков, помогая им понять, когда и как использовать техники, которые могут уменьшить риск вытекающих из FL данных. Это также открывает пути для будущих исследований в области обеспечения приватности в FL. ## Выводы Мы представили первую подробную исследовательскую работу, которая оценивает риск атак "gradient inversion" в различных условиях тренировки и сериализации моделей в FL. Мы доказали, что некоторые архитектурные решения могут сильно увеличивать уязвимость моделей к таким атакам, но в реальных условиях, эти атаки ока

Abstract

Gradient inversion attacks have garnered attention for their ability to compromise privacy in federated learning. However, many studies consider attacks with the model in inference mode, where training-time behaviors like dropout are disabled and batch normalization relies on fixed statistics. In this work, we systematically analyze how architecture and training behavior affect vulnerability, including the first in-depth study of inference-mode clients, which we show dramatically simplifies inversion. To assess attack feasibility under more realistic conditions, we turn to clients operating in standard training mode. In this setting, we find that successful attacks are only possible when several architectural conditions are met simultaneously: models must be shallow and wide, use skip connections, and, critically, employ pre-activation normalization. We introduce two novel attacks against models in training-mode with varying attacker knowledge, achieving state-of-the-art performance under realistic training conditions. We extend these efforts by presenting the first attack on a production-grade object-detection model. Here, to enable any visibly identifiable leakage, we revert to the lenient inference mode setting and make multiple architectural modifications to increase model vulnerability, with the extent of required changes highlighting the strong inherent robustness of such architectures. We conclude this work by offering the first comprehensive mapping of settings, clarifying which combinations of architectural choices and operational modes meaningfully impact privacy. Our analysis provides actionable insight into when models are likely vulnerable, when they appear robust, and where subtle leakage may persist. Together, these findings reframe how gradient inversion risk should be assessed in future research and deployment scenarios.

Ссылки и действия