FedPromo: Federated Lightweight Proxy Models at the Edge Bring New Domains to Foundation Models
2508.03356v1
cs.CV, cs.LG
2025-08-09
Авторы:
Matteo Caligiuri, Francesco Barbato, Donald Shenaj, Umberto Michieli, Pietro Zanuttigh
Резюме на русском
**Резюме**
Существующие методы федеративного обучения (FL) часто сталкиваются с проблемой ресурсоемкости при обучении больших моделей на клиентских устройствах. Мы предлагаем FedPromo — фреймворк, решающий эту проблему за счет использования легковесных прокси-моделей. Решение работает в двух этапах: сначала выравнивается представление большой фундаментальной модели (например, трансформера) с компактной моделью (например, CNN) на сервере с помощью классического knowledge distillation. Затем клиентские устройства принимают прокси-модель и обучают на ней локальные классификаторы. Эти классификаторы мерджутся на сервере, обновляя базовую модель, но без непосредственного доступа к данным клиентов. Наш подход включает оригинальные регуляризационные стратегии, обеспечивая эффективное децентрализованное многодоменное обучение. На экспериментах с five-shot image classification FedPromo показал значительные выигрыши по результатам и ресурсоемкости по сравнению с современными методами, даже при ограниченных ресурсах клиентских устройств.
Abstract
Federated Learning (FL) is an established paradigm for training deep learning
models on decentralized data. However, as the size of the models grows,
conventional FL approaches often require significant computational resources on
client devices, which may not be feasible. We introduce FedPromo, a novel
framework that enables efficient adaptation of large-scale foundation models
stored on a central server to new domains encountered only by remote clients.
Instead of directly training the large model on client devices, FedPromo
optimizes lightweight proxy models via FL, significantly reducing computational
overhead while maintaining privacy. Our method follows a two-stage process:
first, server-side knowledge distillation aligns the representations of a
large-scale foundation model (e.g., a transformer) with those of a compact
counterpart (e.g., a CNN). Then, the compact model encoder is deployed to
client devices, where trainable classifiers are learned locally. These
classifiers are subsequently aggregated and seamlessly transferred back to the
foundation model, facilitating personalized adaptation without requiring direct
access to user data. Through novel regularization strategies, our framework
enables decentralized multi-domain learning, balancing performance, privacy,
and resource efficiency. Extensive experiments on five image classification
benchmarks demonstrate that FedPromo outperforms existing methods while
assuming limited-resource clients.
Ссылки и действия
Дополнительные ресурсы: