FedFusion: Federated Learning with Diversity- and Cluster-Aware Encoders for Robust Adaptation under Label Scarcity
2509.19220v1
cs.LG, cs.AI, cs.DC
2025-09-25
Авторы:
Ferdinand Kahenga, Antoine Bagula, Patrick Sello, Sajal K. Das
Резюме на русском
## Контекст
Federated learning (FL) является важной технологией для обучения моделей на данных, распределенных по множеству устройств или клиентов, не требуя передачи их в центральную точку. Однако практическое применение FL сталкивается с несколькими вызовами. Одним из них является неизбежное различие функциональных пространств между клиентами, которое приводит к несовместимости моделей. Кроме того, данные на клиентских устройствах часто являются нестандартными (non-IID), что усложняет обучение общей модели. Несомненно, что самый серьезный вызов в FL — это нехватка меток (label scarcity), которая ограничивает возможности обучения эффективной модели. Эти проблемы могут отрицательно сказаться на точности модели, робастности и справедливости. Мотивация FedFusion — развитие фреймворка, который эффективно решает эти проблемы с помощью трансфер-learning, подходов к разнообразию и кластеризации, а также фругального меток.
## Метод
FedFusion — это фреймворк, который комбинирует методы трансфер-learning и подходы к поддержанию разнообразия и кластеризации. Он включает в себя три типа клиентов: **teacher-clients**, которые обладают достаточным количеством меток и направляют **learner-clients**, которые имеют меньше меток или их отсутствие. Teacher-clients используют **confidence-filtered pseudo-labels**, чтобы обучать learner-clients, при этом применяется **domain-adaptive transfer** для адаптации моделей к разным клиентам. FedFusion использует **diversity-aware encoders (DivEn)**, которые учитывают различия в данных между клиентами, включая **DivEn-mix** для смешения разнородных данных и **DivEn-c** для поддержания кластеризации. Для сохранения глобального когерентности, FedFusion использует **similarity-weighted classifier coupling**, что позволяет избежать преобладания данных-богатых клиентов и повысить производительность клиентов с небольшим количеством меток. Также FedFusion включает **frugal-labelling pipeline**, которая основывается на **self-/semi-supervised pretext training** и **selective fine-tuning** для уменьшения необходимости ручной маркировки.
## Результаты
Для оценки FedFusion проведены эксперименты на нескольких датасетах, включая **tabular datasets** (такие как Adult и COMPAS) и **imaging datasets** (такие как CIFAR-10 и CIFAR-100), в разных режимах (IID, non-IID и label-scarce). Результаты показали, что FedFusion показал лучшую точность, робастность и справедливость по сравнению с состоянием искусства (state-of-the-art, SOTA), в том числе **FedAvg**, **FedProx** и **FedPer**. На датасетах CIFAR-10 и CIFAR-100, FedFusion показал **10-15% выигрыша в точности** в режимах с небольшим количеством меток. Также, FedFusion показал низкие значения **communication overhead** и **computation cost**, что делает его пригодным для реальных приложений.
## Значимость
FedFusion имеет широкие области применения, включая различные сценарии, такие как медицина, моби
Abstract
Federated learning in practice must contend with heterogeneous feature
spaces, severe non-IID data, and scarce labels across clients. We present
FedFusion, a federated transfer-learning framework that unifies domain
adaptation and frugal labelling with diversity-/cluster-aware encoders (DivEn,
DivEn-mix, DivEn-c). Labelled teacher clients guide learner clients via
confidence-filtered pseudo-labels and domain-adaptive transfer, while clients
maintain personalised encoders tailored to local data. To preserve global
coherence under heterogeneity, FedFusion employs similarity-weighted classifier
coupling (with optional cluster-wise averaging), mitigating dominance by
data-rich sites and improving minority-client performance. The frugal-labelling
pipeline combines self-/semi-supervised pretext training with selective
fine-tuning, reducing annotation demands without sharing raw data. Across
tabular and imaging benchmarks under IID, non-IID, and label-scarce regimes,
FedFusion consistently outperforms state-of-the-art baselines in accuracy,
robustness, and fairness while maintaining comparable communication and
computation budgets. These results show that harmonising personalisation,
domain adaptation, and label efficiency is an effective recipe for robust
federated learning under real-world constraints.
Ссылки и действия
Дополнительные ресурсы: