Efficient Multi-Source Knowledge Transfer by Model Merging
2508.19353v1
cs.LG, cs.CV
2025-08-29
Авторы:
Marcin Osial, Bartosz Wójcik, Bartosz Zieliński, Sebastian Cygert
Резюме на русском
## Контекст
Проблема transfer learning заключается в том, что она обычно ограничивается использованием одного источника знаний. Однако в мире AI существует множество моделей с разным опытом, которые могут быть полезны для решения новых задач. Использование знаний из нескольких источников может повысить точность и уменьшить расходы на обучение моделей. Существующие подходы к многоисточниковому transfer learning либо неэффективны, либо недостаточно точны в извлечении и объединении знаний. Это приводит к невысокому качеству решений и высоким затратам на реализацию. Наша модель предлагает решение этих проблем, обеспечивая эффективность, точность и масштабируемость в многоисточниковом transfer learning.
## Метод
Мы предлагаем использовать Singular Value Decomposition (SVD) для разложения каждой модели на элементарные компоненты. Эти компоненты представляют собой самые важные свойства модели. Далее, мы проводим адаптивную фильтрацию, чтобы выбрать только самые важные элементы. Это позволяет уменьшить размер модели, не теряя в качестве. Затем мы объединяем эти выбранные компоненты из нескольких моделей в единую структуру. На последнем этапе мы применяем fine-tuning только главным составляющим этой структуры, чтобы приспособить модель к конкретной задаче. Этот подход обеспечивает эффективность и точность в transfer learning.
## Результаты
Мы проверили нашу модель на нескольких задачах, используя различные источники знаний. Результаты показали, что наш подход эффективно объединяет знания из нескольких моделей, избавляясь от лишнего шума. В результате мы получили модель, которая не только эффективнее, но и более точна в решении новых задач. Мы также проверили устойчивость нашего подхода к различным формам помех и изменений в данных. Результаты показали, что наша модель не только лучше, но и более надежна в разных условиях.
## Значимость
Наш подход может быть применен во многих областях, где требуется быстрое и эффективное обучение моделей. Он позволяет использовать несколько источников знаний, чтобы повысить точность и общий качество модели. Это дает большой потенциал для улучшения технологий в сферах, таких как медицина, интернет-технологии, а также для решения задач, где требуется быстрая адаптация моделей к новым задачам. Мы также отмечаем, что наш подход требует меньше ресурсов и обеспечивает более точное и быстрое решение задач.
## Выводы
Мы представили эффективный подход к многоисточниковому transfer learning, который объединяет знания из нескольких моделей, обеспечивая высокую точность и эффективность. Мы продемонстрировали, что наша модель может быть применена в различных областях и является надежной в различных условиях. Буду
Abstract
While transfer learning is an advantageous strategy, it overlooks the
opportunity to leverage knowledge from numerous available models online.
Addressing this multi-source transfer learning problem is a promising path to
boost adaptability and cut re-training costs. However, existing approaches are
inherently coarse-grained, lacking the necessary precision for granular
knowledge extraction and the aggregation efficiency required to fuse knowledge
from either a large number of source models or those with high parameter
counts. We address these limitations by leveraging Singular Value Decomposition
(SVD) to first decompose each source model into its elementary, rank-one
components. A subsequent aggregation stage then selects only the most salient
components from all sources, thereby overcoming the previous efficiency and
precision limitations. To best preserve and leverage the synthesized knowledge
base, our method adapts to the target task by fine-tuning only the principal
singular values of the merged matrix. In essence, this process only
recalibrates the importance of top SVD components. The proposed framework
allows for efficient transfer learning, is robust to perturbations both at the
input level and in the parameter space (e.g., noisy or pruned sources), and
scales well computationally.
Ссылки и действия
Дополнительные ресурсы: