FedQuad: Federated Stochastic Quadruplet Learning to Mitigate Data Heterogeneity

2509.04107v1 cs.LG, cs.CV 2025-09-06
Авторы:

Ozgu Goksu, Nicolas Pugeault

Резюме на русском

## Контекст Federated Learning (FL) является мощным подходом к распределенному обучению моделей, обеспечивающим поддержку приватности данных и их распределенности. Однако существуют значительные вызовы, связанные с характером данных на клиентских устройствах, включая нестандартность (data heterogeneity) и небольшой объем данных. Эти проблемы вызывают снижение качества моделей, особенно в условиях неравномерного распределения классов и ограниченного объема данных на каждом клиенте. Необходимость развития методов, способных эффективно справляться с подобными проблемами, лежит в основе мотивации для исследований в этой области. Особенно актуальной является задача минимизации негативного влияния различий в данных клиентов на качество общей модели. ## Метод Мы предлагаем метод \textit{FedQuad}, основанный на метрическом обучении, который сосредоточен на уменьшении внутриклассовой дисперсии и увеличении межклассовой дисперсии в общем пространстве признаков. Метод оптимизирует расстояния между элементами одного класса (похожие пары), при этом максимизируя расстояния между элементами различных классов (отрицательные пары). Это позволяет достичь более точного представления клиентских данных в общем пространстве. Метод \textit{FedQuad} использует формулу оптимизации, которая эффективно сбалансирована между этими целями, и технику градиентного спуска, применяемую к федеративному обучению. Выбор данных и архитектуры гарантирует эффективность метода в условиях нестабильности данных между клиентами. ## Результаты Мы проводили эксперименты на двух датасетах: CIFAR-10 и CIFAR-100. Эти датасеты были разделены на клиентские наборы данных с разными дистрибуциями классов. Мы сравнили нашу модель с несколькими имеющимися подходами, включая стандартные методы FL и метрическое обучение. Эксперименты показали, что \textit{FedQuad} демонстрирует значительное превосходство в условиях нестандартности данных, особенно при малом количестве клиентов и данных. Мы также провели анализ того, как различные метрические подходы влияют на качество обучения в FL. Эти результаты указывают на высокую эффективность \textit{FedQuad} в решении проблемы несогласованности данных. ## Значимость Метод \textit{FedQuad} имеет широкие перспективы применения в сферах, где важно сохранение приватности данных и эффективное обучение моделей в условиях несогласованности клиентских данных. Например, это могут быть различные системы медицинского мониторинга, мобильные приложения или системы обнаружения объектов в реальном времени. Несомненным преимуществом является уменьшение влияния неоднородности данных на качество обще

Abstract

Federated Learning (FL) provides decentralised model training, which effectively tackles problems such as distributed data and privacy preservation. However, the generalisation of global models frequently faces challenges from data heterogeneity among clients. This challenge becomes even more pronounced when datasets are limited in size and class imbalance. To address data heterogeneity, we propose a novel method, \textit{FedQuad}, that explicitly optimises smaller intra-class variance and larger inter-class variance across clients, thereby decreasing the negative impact of model aggregation on the global model over client representations. Our approach minimises the distance between similar pairs while maximising the distance between negative pairs, effectively disentangling client data in the shared feature space. We evaluate our method on the CIFAR-10 and CIFAR-100 datasets under various data distributions and with many clients, demonstrating superior performance compared to existing approaches. Furthermore, we provide a detailed analysis of metric learning-based strategies within both supervised and federated learning paradigms, highlighting their efficacy in addressing representational learning challenges in federated settings.

Ссылки и действия