Tackling Federated Unlearning as a Parameter Estimation Problem

2508.19065v1 cs.LG, cs.AI, cs.IT, math.IT 2025-08-28
Авторы:

Antonio Balordi, Lorenzo Manini, Fabio Stella, Alessio Merlo

Резюме на русском

## Контекст Современные технологии сталкиваются с вопросами защиты персональных данных и соблюдения законодательства в области конфиденциальности. Например, законы GDPR и CCPA требуют, чтобы организации эффективно удаляли личные данные по запросу пользователей. Эта проблема особенно актуальна в рамках **Federated Learning**, где данные остаются на клиентских устройствах, что создает сложности в полной переобучении моделей. **Federated Unlearning** — это новая область исследований, стремящаяся разработать методы эффективного удаления данных из моделей без полной переустановки. Наша работа ставит задачу оптимизировать процесс удаления данных, снизив потребность в ресурсах и сохранив высокую точность модели. ## Метод Мы предлагаем **метод моделирования удаления данных как задачи оценки параметров**. Наш подход основывается на **теории информации** и использует **второй порядок гессианских информаций** для идентификации параметров, наиболее восприимчивых к удаляемым данным. Это позволяет ограничить актуальность удаления только определенным клиентом или категории данных. Далее, мы применяем **федеративное периодическое обучение** для минимального восстановления модели. Наша техника является **модельно-независимой** и не требует доступа к неагрегированным данным клиентов после инциальной агрегации. Основная идея заключается в том, чтобы эффективно забывать данные, не теряя в качестве модели. ## Результаты Мы проводили эксперименты на нескольких **benchmark-датасетах** (таких как CIFAR-10 и CIFAR-100), использовав **методы машинного обучения**, такие как глубокие нейронные сети. Наши результаты показывают, что: 1. **Удаление данных**: Успешность стороннего теста возврата данных (Membership Inference Attack, MIA) приближается к случайному значению, что указывает на эффективность удаления. 2. **Точность**: Точность модели после удаления данных остается высокой, приблизительно 0,9 в сравнении с переобученной моделью. 3. **Эффективность**: Наш метод экономит до 90% ресурсов по сравнении с полным переобучением. 4. **Безопасность**: Мы проверили нашу технику в условиях **targeted backdoor attack** и продемонстрировали ее эффективность в безопасном восстановлении модели после атаки. ## Значимость Наш подход имеет **широкие области применения**, включая банковское и медицинское приложения, где требуется строгая защита конфиденциальных данных. Он обеспечивает: 1. **Повышение безопасности**: Удаление данных происходит без необходимости доступа к неагрегированным данным клиентов. 2. **Эффективность**: Минимальное время обучения по сравнении с полной переустановкой. 3. **Кросс-прилож

Abstract

Privacy regulations require the erasure of data from deep learning models. This is a significant challenge that is amplified in Federated Learning, where data remains on clients, making full retraining or coordinated updates often infeasible. This work introduces an efficient Federated Unlearning framework based on information theory, modeling leakage as a parameter estimation problem. Our method uses second-order Hessian information to identify and selectively reset only the parameters most sensitive to the data being forgotten, followed by minimal federated retraining. This model-agnostic approach supports categorical and client unlearning without requiring server access to raw client data after initial information aggregation. Evaluations on benchmark datasets demonstrate strong privacy (MIA success near random, categorical knowledge erased) and high performance (Normalized Accuracy against re-trained benchmarks of $\approx$ 0.9), while aiming for increased efficiency over complete retraining. Furthermore, in a targeted backdoor attack scenario, our framework effectively neutralizes the malicious trigger, restoring model integrity. This offers a practical solution for data forgetting in FL.

Ссылки и действия

Связанные статьи

Beyond Rebalancing: Benchmarking Binary Classifiers Under Class Imbalance Withou...

## Контекст Class imbalance является серьезной проблемой в обучении с учителем, особенно в критических областях, таких ...

2025-09-11

Contrastive ECOC: Learning Output Codes for Adversarial Defense

#### Контекст Многоклассовая классификация широко используется в различных областях, включая здравоохранение, обработку...

2025-08-16