Large-Small Model Collaborative Framework for Federated Continual Learning

2508.09489v1 cs.LG, cs.AI 2025-08-15
Авторы:

Hao Yu, Xin Yang, Boyang Fan, Xuemei Cao, Hanlin Gu, Lixin Fan, Qiang Yang

Резюме на русском

## Контекст Continual learning (CL) для Foundation Models (FMs) является важной, но до сих пор мало исследованной проблемой, особенно в контексте Federated Continual Learning (FCL). В FCL каждый клиент обучается на приватных, меняющихся задачах, при этом придерживаясь строгих ограничений по данным и общению. Несмотря на их выдающиеся способности к общезначимости, FMs часто показывают неудовлетворительный результат на локальных подзадачах, так как не могут использовать локальные приватные данные. Более того, возникающая проблема заключается в том, чтобы обучить FMs на новых задачах без забытия предыдущих знаний — это сложно из-за огромного числа параметров и высокой сложности этих моделей. Напротив, небольшие модели могут быть обучены локально в условиях ограниченных ресурсов и существенно существуют на более проверенных методах CL. Данный работа предлагает первый фреймворк для коллаборативного обучения в FCL, где легкие локальные модели служат динамическим мостом, постоянно адаптируясь к новым задачам и улучшая эффективность большой модели. ## Метод В этой работе представляется Collaborative Framework (CF), в котором легкие модели функционируют как динамический мост, постоянно адаптируясь к новым задачам и улучшая эффективность большой модели. Фреймворк включает два основных компонента. Первый, Small Model Continual Fine-tuning, предотвращает локальные модели от временного забытия, обеспечивая их долгосрочную точность. Второй, One-by-One Distillation, выполняет лично настроенную слияние знаний из разных локальных моделей на сервере. Это позволяет обеспечить персонализированный подход к интеграции возможностей многих моделей. Таким образом, CF гармонично сочетает мощь FMs с гибкостью небольших моделей, решая проблему недостаточного обучения FMs на локальных задачах. ## Результаты Эксперименты проводились на различных данных, включая потоки задач для FCL. На проверке, CF показал значительное улучшение в сравнении с существующими методами. Например, при использовании локальных небольших моделей, фреймворк удалось обеспечить высокую точность, даже при высоких ограничениях на ресурсы. Данные результаты подтверждают, что CF эффективно обеспечивает локальную адаптацию FMs к новым задачам, повышая общую точность и снижая забытие. Эти результаты также отмечаются в ситуациях, когда клиенты используют различные локальные модели, что демонстрирует универсальность CF. ## Значимость CF может быть применен в различных областях, где необходимо обучение на приватных данных, таких как персональные устройства, мобильные приложения, или системы с ограниченными ресурсами. Он предлагает выгоды, такие как улучшенная точность, эффективность использования ресурсо

Abstract

Continual learning (CL) for Foundation Models (FMs) is an essential yet underexplored challenge, especially in Federated Continual Learning (FCL), where each client learns from a private, evolving task stream under strict data and communication constraints. Despite their powerful generalization abilities, FMs often exhibit suboptimal performance on local downstream tasks, as they are unable to utilize private local data. Furthermore, enabling FMs to learn new tasks without forgetting prior knowledge is inherently a challenging problem, primarily due to their immense parameter count and high model complexity. In contrast, small models can be trained locally under resource-constrained conditions and benefit from more mature CL techniques. To bridge the gap between small models and FMs, we propose the first collaborative framework in FCL, where lightweight local models act as a dynamic bridge, continually adapting to new tasks while enhancing the utility of the large model. Two novel components are also included: Small Model Continual Fine-tuning is for preventing small models from temporal forgetting; One-by-One Distillation performs personalized fusion of heterogeneous local knowledge on the server. Experimental results demonstrate its superior performance, even when clients utilize heterogeneous small models.

Ссылки и действия