Efficient Multi-Source Knowledge Transfer by Model Merging

2508.19353v1 cs.LG, cs.CV 2025-08-29
Авторы:

Marcin Osial, Bartosz Wójcik, Bartosz Zieliński, Sebastian Cygert

Резюме на русском

## Контекст Проблема transfer learning заключается в том, что она обычно ограничивается использованием одного источника знаний. Однако в мире AI существует множество моделей с разным опытом, которые могут быть полезны для решения новых задач. Использование знаний из нескольких источников может повысить точность и уменьшить расходы на обучение моделей. Существующие подходы к многоисточниковому transfer learning либо неэффективны, либо недостаточно точны в извлечении и объединении знаний. Это приводит к невысокому качеству решений и высоким затратам на реализацию. Наша модель предлагает решение этих проблем, обеспечивая эффективность, точность и масштабируемость в многоисточниковом transfer learning. ## Метод Мы предлагаем использовать Singular Value Decomposition (SVD) для разложения каждой модели на элементарные компоненты. Эти компоненты представляют собой самые важные свойства модели. Далее, мы проводим адаптивную фильтрацию, чтобы выбрать только самые важные элементы. Это позволяет уменьшить размер модели, не теряя в качестве. Затем мы объединяем эти выбранные компоненты из нескольких моделей в единую структуру. На последнем этапе мы применяем fine-tuning только главным составляющим этой структуры, чтобы приспособить модель к конкретной задаче. Этот подход обеспечивает эффективность и точность в transfer learning. ## Результаты Мы проверили нашу модель на нескольких задачах, используя различные источники знаний. Результаты показали, что наш подход эффективно объединяет знания из нескольких моделей, избавляясь от лишнего шума. В результате мы получили модель, которая не только эффективнее, но и более точна в решении новых задач. Мы также проверили устойчивость нашего подхода к различным формам помех и изменений в данных. Результаты показали, что наша модель не только лучше, но и более надежна в разных условиях. ## Значимость Наш подход может быть применен во многих областях, где требуется быстрое и эффективное обучение моделей. Он позволяет использовать несколько источников знаний, чтобы повысить точность и общий качество модели. Это дает большой потенциал для улучшения технологий в сферах, таких как медицина, интернет-технологии, а также для решения задач, где требуется быстрая адаптация моделей к новым задачам. Мы также отмечаем, что наш подход требует меньше ресурсов и обеспечивает более точное и быстрое решение задач. ## Выводы Мы представили эффективный подход к многоисточниковому transfer learning, который объединяет знания из нескольких моделей, обеспечивая высокую точность и эффективность. Мы продемонстрировали, что наша модель может быть применена в различных областях и является надежной в различных условиях. Буду

Abstract

While transfer learning is an advantageous strategy, it overlooks the opportunity to leverage knowledge from numerous available models online. Addressing this multi-source transfer learning problem is a promising path to boost adaptability and cut re-training costs. However, existing approaches are inherently coarse-grained, lacking the necessary precision for granular knowledge extraction and the aggregation efficiency required to fuse knowledge from either a large number of source models or those with high parameter counts. We address these limitations by leveraging Singular Value Decomposition (SVD) to first decompose each source model into its elementary, rank-one components. A subsequent aggregation stage then selects only the most salient components from all sources, thereby overcoming the previous efficiency and precision limitations. To best preserve and leverage the synthesized knowledge base, our method adapts to the target task by fine-tuning only the principal singular values of the merged matrix. In essence, this process only recalibrates the importance of top SVD components. The proposed framework allows for efficient transfer learning, is robust to perturbations both at the input level and in the parameter space (e.g., noisy or pruned sources), and scales well computationally.

Ссылки и действия