FedQuad: Federated Stochastic Quadruplet Learning to Mitigate Data Heterogeneity
2509.04107v1
cs.LG, cs.CV
2025-09-06
Авторы:
Ozgu Goksu, Nicolas Pugeault
Резюме на русском
## Контекст
Federated Learning (FL) является мощным подходом к распределенному обучению моделей, обеспечивающим поддержку приватности данных и их распределенности. Однако существуют значительные вызовы, связанные с характером данных на клиентских устройствах, включая нестандартность (data heterogeneity) и небольшой объем данных. Эти проблемы вызывают снижение качества моделей, особенно в условиях неравномерного распределения классов и ограниченного объема данных на каждом клиенте. Необходимость развития методов, способных эффективно справляться с подобными проблемами, лежит в основе мотивации для исследований в этой области. Особенно актуальной является задача минимизации негативного влияния различий в данных клиентов на качество общей модели.
## Метод
Мы предлагаем метод \textit{FedQuad}, основанный на метрическом обучении, который сосредоточен на уменьшении внутриклассовой дисперсии и увеличении межклассовой дисперсии в общем пространстве признаков. Метод оптимизирует расстояния между элементами одного класса (похожие пары), при этом максимизируя расстояния между элементами различных классов (отрицательные пары). Это позволяет достичь более точного представления клиентских данных в общем пространстве. Метод \textit{FedQuad} использует формулу оптимизации, которая эффективно сбалансирована между этими целями, и технику градиентного спуска, применяемую к федеративному обучению. Выбор данных и архитектуры гарантирует эффективность метода в условиях нестабильности данных между клиентами.
## Результаты
Мы проводили эксперименты на двух датасетах: CIFAR-10 и CIFAR-100. Эти датасеты были разделены на клиентские наборы данных с разными дистрибуциями классов. Мы сравнили нашу модель с несколькими имеющимися подходами, включая стандартные методы FL и метрическое обучение. Эксперименты показали, что \textit{FedQuad} демонстрирует значительное превосходство в условиях нестандартности данных, особенно при малом количестве клиентов и данных. Мы также провели анализ того, как различные метрические подходы влияют на качество обучения в FL. Эти результаты указывают на высокую эффективность \textit{FedQuad} в решении проблемы несогласованности данных.
## Значимость
Метод \textit{FedQuad} имеет широкие перспективы применения в сферах, где важно сохранение приватности данных и эффективное обучение моделей в условиях несогласованности клиентских данных. Например, это могут быть различные системы медицинского мониторинга, мобильные приложения или системы обнаружения объектов в реальном времени. Несомненным преимуществом является уменьшение влияния неоднородности данных на качество обще
Abstract
Federated Learning (FL) provides decentralised model training, which
effectively tackles problems such as distributed data and privacy preservation.
However, the generalisation of global models frequently faces challenges from
data heterogeneity among clients. This challenge becomes even more pronounced
when datasets are limited in size and class imbalance. To address data
heterogeneity, we propose a novel method, \textit{FedQuad}, that explicitly
optimises smaller intra-class variance and larger inter-class variance across
clients, thereby decreasing the negative impact of model aggregation on the
global model over client representations. Our approach minimises the distance
between similar pairs while maximising the distance between negative pairs,
effectively disentangling client data in the shared feature space. We evaluate
our method on the CIFAR-10 and CIFAR-100 datasets under various data
distributions and with many clients, demonstrating superior performance
compared to existing approaches. Furthermore, we provide a detailed analysis of
metric learning-based strategies within both supervised and federated learning
paradigms, highlighting their efficacy in addressing representational learning
challenges in federated settings.
Ссылки и действия
Дополнительные ресурсы: