Federated Learning with Heterogeneous and Private Label Sets
2508.18774v1
cs.LG, stat.ML
2025-08-28
Авторы:
Adam Breitholtz, Edvin Listo Zec, Fredrik D. Johansson
Резюме на русском
## Контекст
Федеративное обучение (FL) представляет собой метод обучения глобальному модели на основе данных, распределенных между независимыми клиентами. Обычно в FL предполагается, что клиенты имеют независимые и сбалансированные меток для обучения. Однако в реальных приложениях это не всегда так: клиенты могут иметь разные, несовместимые метки или даже не желать делиться своими метками с другими клиентами. Эти ситуации — например, различных меток между клиентами в интернет-рекламе или в обработке медицинских данных — представляют собой значительную проблему для традиционных подходов FL. Несмотря на важность этой проблемы, в существующих исследованиях либо не рассматриваются, либо редко рассматриваются эти сценарии. Наша мотивация заключается в изучении эффектов различности меток (label set heterogeneity) на производительность модели в FL, а также в разработке методов, позволяющих улучшить этот аспект без ущерба для конфиденциальности клиентов.
## Метод
Мы рассматриваем два основных сценария различности меток: **публичное** и **приватное**. В первом случае клиенты имеют доступ к общей множеству меток (то есть, клиенты могут видеть, какие метки имеют другие клиенты), тогда как во втором случае клиенты делят свои метки только с центральным сервером, но не друг с другом. Мы применяем классические методы для решения проблемы комбинирования классификаторов (classifier combination problem) в рамках FL, а также адаптируем существующие методы FL для приватных меток. Для этих целей мы используем методы, такие как **Federated Averaging (FedAvg)** и **FedProx**, которые адаптируются для работы с отличающимися метками. Кроме того, мы рассматриваем централизованный подход, при котором клиенты обучают свои модели с целью улучшения представительности (representational alignment), но этот подход часто приводит к более высокой вариативности результатов.
## Результаты
Мы проводили эксперименты на различных датасетах, включая CIFAR-10 и CIFAR-100, для сравнения различных подходов в FL с различностью меток. Наши результаты показали, что сокращение количества меток для каждого клиента значительно снижает производительность всех методов, независимо от того, имеют ли клиенты публичные или приватные метки. Тем не менее, централизованный подход к улучшению представительности моделей помогает смягчить этот эффект, хотя в некоторых случаях он приводит к высокой вариативности. В то же время, наши адаптированные подходы FL для приватных меток показали почти одинаковую производительность в сравнении с методами FL в случае публичных меток. Это указывает на то, что клиенты могут получать приватность с минимальными затратами на точность модели.
## Значимост
Abstract
Although common in real-world applications, heterogeneous client label sets
are rarely investigated in federated learning (FL). Furthermore, in the cases
they are, clients are assumed to be willing to share their entire label sets
with other clients. Federated learning with private label sets, shared only
with the central server, adds further constraints on learning algorithms and
is, in general, a more difficult problem to solve. In this work, we study the
effects of label set heterogeneity on model performance, comparing the public
and private label settings -- when the union of label sets in the federation is
known to clients and when it is not. We apply classical methods for the
classifier combination problem to FL using centralized tuning, adapt common FL
methods to the private label set setting, and discuss the justification of both
approaches under practical assumptions. Our experiments show that reducing the
number of labels available to each client harms the performance of all methods
substantially. Centralized tuning of client models for representational
alignment can help remedy this, but often at the cost of higher variance.
Throughout, our proposed adaptations of standard FL methods perform well,
showing similar performance in the private label setting as the standard
methods achieve in the public setting. This shows that clients can enjoy
increased privacy at little cost to model accuracy.
Ссылки и действия
Дополнительные ресурсы: