Differentially Private Federated Clustering with Random Rebalancing

2508.06183v1 cs.LG, cs.AI 2025-08-12
Авторы:

Xiyuan Yang, Shengyuan Hu, Soyeon Kim, Tian Li

Резюме на русском

## Контекст Федеративное обучение моделей становится все более популярным подходом к обучению моделей AI, особенно в ситуациях, когда данные к CLIENTS распределены по различным устройствам и хранятся независимо. Группировка клиентов в кластеры и обучение отдельных моделей для каждого кластера позволяет повысить точность модели, но при этом вводит дополнительные риски в отношении конфиденциальности. Несмотря на то, что федеративное обучение обычно лучше подходит под задачи CLIENT, чем обучение глобальной модели, оно может быть эффективнее, но при этом может стать более уязвимым к атакам в отношении конфиденциальности. Например, в федеративном кластеринге, когда клиенты сгруппированы на основе похожести, может возникнуть проблема с конфиденциальностью из-за акцента на индивидуальных клиентов в каждом кластере. Это может привести к выходу из пределов допустимого уровня конфиденциальности, который необходим для защиты конфиденциальных данных клиентов. Это наблюдение мотивирует разработку новых методов, которые могут повысить конфиденциальность и позволить сохранить эффективность федеративного кластеринга. ## Метод Для решения этой проблемы предложен метод **RR-Cluster** (Random Rebalancing Cluster) — техника, которая может быть добавлена к многим федеративным кластеринговым алгоритмам. RR-Cluster работает путем случайного перераспределения клиентов между кластерами для гарантии минимального числа клиентов в каждом кластере. Это позволяет уменьшить зашумление, которое вносят действия частности, и, следовательно, повысить точность модели. Недостатки этого подхода заключаются в том, что случайное перераспределение может привести к некоторой потере в точности, но эта потеря значительно меньше, чем риск конфиденциальности, который может возникнуть в случае отсутствия предложенного метода. Метод RR-Cluster позволяет повысить производительность на основе синтетических и реальных данных, а также доказанная теоретическая модель его работы позволяет гарантировать стабильность работы метода в разных условиях. ## Результаты Эксперименты показали, что применение **RR-Cluster** к существующим федеративным кластеринговым алгоритмам приводит к значительному повышению конфиденциальности при сохранении высокой точности. Были использованы данные как синтетических, так и реальных, в том числе данные с сети Интернета. Результаты показали, что **RR-Cluster** улучшил показатели конфиденциальности в сравнении с текущими методами, в то же время сохранив высокую учёту индивидуальных предпочтений клиентов. Таким образом, RR-Cluster демонстрирует значительные преимущества в сочетании конфиденциальности и эффективности, что делает его привлекательным для реальных при

Abstract

Federated clustering aims to group similar clients into clusters and produce one model for each cluster. Such a personalization approach typically improves model performance compared with training a single model to serve all clients, but can be more vulnerable to privacy leakage. Directly applying client-level differentially private (DP) mechanisms to federated clustering could degrade the utilities significantly. We identify that such deficiencies are mainly due to the difficulties of averaging privacy noise within each cluster (following standard privacy mechanisms), as the number of clients assigned to the same clusters is uncontrolled. To this end, we propose a simple and effective technique, named RR-Cluster, that can be viewed as a light-weight add-on to many federated clustering algorithms. RR-Cluster achieves reduced privacy noise via randomly rebalancing cluster assignments, guaranteeing a minimum number of clients assigned to each cluster. We analyze the tradeoffs between decreased privacy noise variance and potentially increased bias from incorrect assignments and provide convergence bounds for RR-Clsuter. Empirically, we demonstrate the RR-Cluster plugged into strong federated clustering algorithms results in significantly improved privacy/utility tradeoffs across both synthetic and real-world datasets.

Ссылки и действия