Differentially Private Federated Clustering with Random Rebalancing
2508.06183v1
cs.LG, cs.AI
2025-08-12
Авторы:
Xiyuan Yang, Shengyuan Hu, Soyeon Kim, Tian Li
Резюме на русском
## Контекст
Федеративное обучение моделей становится все более популярным подходом к обучению моделей AI, особенно в ситуациях, когда данные к CLIENTS распределены по различным устройствам и хранятся независимо. Группировка клиентов в кластеры и обучение отдельных моделей для каждого кластера позволяет повысить точность модели, но при этом вводит дополнительные риски в отношении конфиденциальности. Несмотря на то, что федеративное обучение обычно лучше подходит под задачи CLIENT, чем обучение глобальной модели, оно может быть эффективнее, но при этом может стать более уязвимым к атакам в отношении конфиденциальности.
Например, в федеративном кластеринге, когда клиенты сгруппированы на основе похожести, может возникнуть проблема с конфиденциальностью из-за акцента на индивидуальных клиентов в каждом кластере. Это может привести к выходу из пределов допустимого уровня конфиденциальности, который необходим для защиты конфиденциальных данных клиентов. Это наблюдение мотивирует разработку новых методов, которые могут повысить конфиденциальность и позволить сохранить эффективность федеративного кластеринга.
## Метод
Для решения этой проблемы предложен метод **RR-Cluster** (Random Rebalancing Cluster) — техника, которая может быть добавлена к многим федеративным кластеринговым алгоритмам. RR-Cluster работает путем случайного перераспределения клиентов между кластерами для гарантии минимального числа клиентов в каждом кластере. Это позволяет уменьшить зашумление, которое вносят действия частности, и, следовательно, повысить точность модели. Недостатки этого подхода заключаются в том, что случайное перераспределение может привести к некоторой потере в точности, но эта потеря значительно меньше, чем риск конфиденциальности, который может возникнуть в случае отсутствия предложенного метода. Метод RR-Cluster позволяет повысить производительность на основе синтетических и реальных данных, а также доказанная теоретическая модель его работы позволяет гарантировать стабильность работы метода в разных условиях.
## Результаты
Эксперименты показали, что применение **RR-Cluster** к существующим федеративным кластеринговым алгоритмам приводит к значительному повышению конфиденциальности при сохранении высокой точности. Были использованы данные как синтетических, так и реальных, в том числе данные с сети Интернета. Результаты показали, что **RR-Cluster** улучшил показатели конфиденциальности в сравнении с текущими методами, в то же время сохранив высокую учёту индивидуальных предпочтений клиентов. Таким образом, RR-Cluster демонстрирует значительные преимущества в сочетании конфиденциальности и эффективности, что делает его привлекательным для реальных при
Abstract
Federated clustering aims to group similar clients into clusters and produce
one model for each cluster. Such a personalization approach typically improves
model performance compared with training a single model to serve all clients,
but can be more vulnerable to privacy leakage. Directly applying client-level
differentially private (DP) mechanisms to federated clustering could degrade
the utilities significantly. We identify that such deficiencies are mainly due
to the difficulties of averaging privacy noise within each cluster (following
standard privacy mechanisms), as the number of clients assigned to the same
clusters is uncontrolled. To this end, we propose a simple and effective
technique, named RR-Cluster, that can be viewed as a light-weight add-on to
many federated clustering algorithms. RR-Cluster achieves reduced privacy noise
via randomly rebalancing cluster assignments, guaranteeing a minimum number of
clients assigned to each cluster. We analyze the tradeoffs between decreased
privacy noise variance and potentially increased bias from incorrect
assignments and provide convergence bounds for RR-Clsuter. Empirically, we
demonstrate the RR-Cluster plugged into strong federated clustering algorithms
results in significantly improved privacy/utility tradeoffs across both
synthetic and real-world datasets.
Ссылки и действия
Дополнительные ресурсы: