Towards a Larger Model via One-Shot Federated Learning on Heterogeneous Client Models
2508.13625v1
cs.LG, cs.AI
2025-08-21
Авторы:
Wenxuan Ye, Xueli An, Onur Ayan, Junfan Wang, Xueqiang Yan, Georg Carle
Резюме на русском
#### Контекст
В современном мире, связанном с высокой скоростью развития технологий и повышением требований к мобильным устройствам, возникают новые вызовы в области обработки данных. Одной из ключевых проблем является необходимость создания мощных моделей, которые могли бы обеспечить высокую точность работы на устройствах с ограниченными ресурсами. Однако клиенты часто не могут предоставить их частные данные серверу по причине повышенных требований к конфиденциальности. Federated Learning (FL) предлагает решение этой проблемы, позволяя клиентам обучать модель совместно, используя обмен параметрами модели вместо трансляции ненадежных значений. Однако FL имеет несколько ограничений, такие как необходимость в однородной архитектуре моделей, многократному обмену информацией и высокому расходу вычислительных ресурсов. Для устранения этих проблем, в данной работе предлагается FedOL, новая методология, которая позволяет создавать более крупные и мощные модели в одноразовом федеративном обучении.
#### Метод
FedOL основывается на методе знаковая дистилляция (knowledge distillation), который позволяет клиентам обучать серверную модель, обмениваясь только предсказаниями модели на необъявленном общем наборе данных. Это позволяет сократить объем передаваемой информации, так как клиенты не передают весь весь вес своей модели, а лишь предсказания. FedOL также использует специальный функционал потерь, чтобы исправлять псевдомаркировки, сгенерированные клиентами, и улучшать научный характер обучения. Также в FedOL включена стратегия знаковой дистилляции, позволяющая эффективно интегрировать различные знания. Это делает FedOL выгодным для сетей мобильных устройств, где клиенты имеют доступ к ценным данным, но ограничены в вычислительных ресурсах.
#### Результаты
Для тестирования FedOL был использован набор данных CIFAR-10, разделенный на 10 клиентов с разными архитектурами моделей (VGG, ResNet, CNN). Одноразовое федеративное обучение проводилось в течение одного раунда с обменом только предсказаниями на необъявленный набор данных. Эксперименты показали, что FedOL позволяет построить более высокоточную модель, чем существующие методы FL, в ситуации, когда клиенты имеют различные ресурсы и виды моделей. FedOL также уменьшил общую нагрузку на сеть, сократив количество обмена данными и уменьшив требования к вычислительным ресурсам у клиентов.
#### Значимость
FedOL может применяться в различных сферах, где требуется уменьшение затрат на обмен данными и повышение точности моделей. Например, в мобильных сетях, где клиенты обладают частными данными, но не могут их передавать серверу, FedOL может быть эффективным способо
Abstract
Large models, renowned for superior performance, outperform smaller ones even
without billion-parameter scales. While mobile network servers have ample
computational resources to support larger models than client devices, privacy
constraints prevent clients from directly sharing their raw data. Federated
Learning (FL) enables decentralized clients to collaboratively train a shared
model by exchanging model parameters instead of transmitting raw data. Yet, it
requires a uniform model architecture and multiple communication rounds, which
neglect resource heterogeneity, impose heavy computational demands on clients,
and increase communication overhead. To address these challenges, we propose
FedOL, to construct a larger and more comprehensive server model in one-shot
settings (i.e., in a single communication round). Instead of model parameter
sharing, FedOL employs knowledge distillation, where clients only exchange
model prediction outputs on an unlabeled public dataset. This reduces
communication overhead by transmitting compact predictions instead of full
model weights and enables model customization by allowing heterogeneous model
architectures. A key challenge in this setting is that client predictions may
be biased due to skewed local data distributions, and the lack of ground-truth
labels in the public dataset further complicates reliable learning. To mitigate
these issues, FedOL introduces a specialized objective function that
iteratively refines pseudo-labels and the server model, improving learning
reliability. To complement this, FedOL incorporates a tailored pseudo-label
generation and knowledge distillation strategy that effectively integrates
diverse knowledge. Simulation results show that FedOL significantly outperforms
existing baselines, offering a cost-effective solution for mobile networks
where clients possess valuable private data but limited computational
resources.
Ссылки и действия
Дополнительные ресурсы: