Towards a Larger Model via One-Shot Federated Learning on Heterogeneous Client Models

2508.13625v1 cs.LG, cs.AI 2025-08-21
Авторы:

Wenxuan Ye, Xueli An, Onur Ayan, Junfan Wang, Xueqiang Yan, Georg Carle

Резюме на русском

#### Контекст В современном мире, связанном с высокой скоростью развития технологий и повышением требований к мобильным устройствам, возникают новые вызовы в области обработки данных. Одной из ключевых проблем является необходимость создания мощных моделей, которые могли бы обеспечить высокую точность работы на устройствах с ограниченными ресурсами. Однако клиенты часто не могут предоставить их частные данные серверу по причине повышенных требований к конфиденциальности. Federated Learning (FL) предлагает решение этой проблемы, позволяя клиентам обучать модель совместно, используя обмен параметрами модели вместо трансляции ненадежных значений. Однако FL имеет несколько ограничений, такие как необходимость в однородной архитектуре моделей, многократному обмену информацией и высокому расходу вычислительных ресурсов. Для устранения этих проблем, в данной работе предлагается FedOL, новая методология, которая позволяет создавать более крупные и мощные модели в одноразовом федеративном обучении. #### Метод FedOL основывается на методе знаковая дистилляция (knowledge distillation), который позволяет клиентам обучать серверную модель, обмениваясь только предсказаниями модели на необъявленном общем наборе данных. Это позволяет сократить объем передаваемой информации, так как клиенты не передают весь весь вес своей модели, а лишь предсказания. FedOL также использует специальный функционал потерь, чтобы исправлять псевдомаркировки, сгенерированные клиентами, и улучшать научный характер обучения. Также в FedOL включена стратегия знаковой дистилляции, позволяющая эффективно интегрировать различные знания. Это делает FedOL выгодным для сетей мобильных устройств, где клиенты имеют доступ к ценным данным, но ограничены в вычислительных ресурсах. #### Результаты Для тестирования FedOL был использован набор данных CIFAR-10, разделенный на 10 клиентов с разными архитектурами моделей (VGG, ResNet, CNN). Одноразовое федеративное обучение проводилось в течение одного раунда с обменом только предсказаниями на необъявленный набор данных. Эксперименты показали, что FedOL позволяет построить более высокоточную модель, чем существующие методы FL, в ситуации, когда клиенты имеют различные ресурсы и виды моделей. FedOL также уменьшил общую нагрузку на сеть, сократив количество обмена данными и уменьшив требования к вычислительным ресурсам у клиентов. #### Значимость FedOL может применяться в различных сферах, где требуется уменьшение затрат на обмен данными и повышение точности моделей. Например, в мобильных сетях, где клиенты обладают частными данными, но не могут их передавать серверу, FedOL может быть эффективным способо

Abstract

Large models, renowned for superior performance, outperform smaller ones even without billion-parameter scales. While mobile network servers have ample computational resources to support larger models than client devices, privacy constraints prevent clients from directly sharing their raw data. Federated Learning (FL) enables decentralized clients to collaboratively train a shared model by exchanging model parameters instead of transmitting raw data. Yet, it requires a uniform model architecture and multiple communication rounds, which neglect resource heterogeneity, impose heavy computational demands on clients, and increase communication overhead. To address these challenges, we propose FedOL, to construct a larger and more comprehensive server model in one-shot settings (i.e., in a single communication round). Instead of model parameter sharing, FedOL employs knowledge distillation, where clients only exchange model prediction outputs on an unlabeled public dataset. This reduces communication overhead by transmitting compact predictions instead of full model weights and enables model customization by allowing heterogeneous model architectures. A key challenge in this setting is that client predictions may be biased due to skewed local data distributions, and the lack of ground-truth labels in the public dataset further complicates reliable learning. To mitigate these issues, FedOL introduces a specialized objective function that iteratively refines pseudo-labels and the server model, improving learning reliability. To complement this, FedOL incorporates a tailored pseudo-label generation and knowledge distillation strategy that effectively integrates diverse knowledge. Simulation results show that FedOL significantly outperforms existing baselines, offering a cost-effective solution for mobile networks where clients possess valuable private data but limited computational resources.

Ссылки и действия