Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization

2508.08604v2 cs.CV, cs.AI, cs.LG 2025-08-14
Авторы:

Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

Резюме на русском

## Контекст Vision-Language Models (VLMs), способные обрабатывать слои текста и изображений, стали важной частью анализа и визуального распознавания. Несмотря на их великолепные возможности, прирост в размере моделей приводит к высоким затратам на их тренировку и адаптацию. Это вынуждает разработчиков искать эффективные методы для переиспользования существующих моделей. Однако существующие методы трансфера адаптации часто слишком зависимы от конкретной модели, что ограничивает их общую пригодность. Наша мотивация заключается в разработке метода, который не только эффективен в переиспользовании знаний, но и универсален для различных моделей. ## Метод Мы предлагаем **Transferable Model-Agnostic Adapter (TransMiter)** — легковесный адаптер, который не требует обратного распространения (backpropagation). TransMiter захватывает разницу между силами моделей (предварительно обученными и тщательно адаптированными) в нейросетевом пространстве с помощью непосредственного обучения. Это позволяет ему быть переносимым по всему спектру моделей. Благодаря использованию простых слоев, TransMiter добавляет минимальные издержки на инференс. Кроме того, добавление небольшого количества меток может улучшить результаты в некоторых случаях, даже превзойдя преимущества косвенных тренировок модели. ## Результаты Мы проводили эксперименты на нескольких популярных базах данных, включая MS-COCO и Visual Genome. Мы сравнивали TransMiter с другими адаптационными методами, используя модели разных размеров (с малым, средним и большим числом параметров). Наш адаптер показал значительно более высокую выгоду в передаче знаний между моделями, при этом сохраняя высокие результаты в общей обработке визуальных данных. Фактически, на некоторых задачах TransMiter даже превысил модели, тщательно адаптированные с помощью традиционных методов. ## Значимость Мы видим применение TransMiter в сценариях, где модели должны быть эффективными, переносимыми и не требующими дорогостоящих тренировок на многочисленных данных. Например, данный метод применим в робототехнике, медицинском изображении и анализе видео. Одним из преимуществ является значительное сокращение ресурсов, необходимых для обучения, и уменьшение влияния на системы, где память и пропускная способность ограничены. ## Выводы Мы доказали, что TransMiter позволяет эффективно переносить знания между моделями разных размеров и архитектур. Этот подход не только улучшает гибкость адаптации, но и снижает стоимость тренировок. Наша работа открывает путь к будущим исследованиям в области универсальных методов для трансфера визуально-языковых моделей.

Abstract

Vision-Language Models (VLMs) have been widely used in various visual recognition tasks due to their remarkable generalization capabilities. As these models grow in size and complexity, fine-tuning becomes costly, emphasizing the need to reuse adaptation knowledge from 'weaker' models to efficiently enhance 'stronger' ones. However, existing adaptation transfer methods exhibit limited transferability across models due to their model-specific design and high computational demands. To tackle this, we propose Transferable Model-agnostic adapter (TransMiter), a light-weight adapter that improves vision-language models 'without backpropagation'. TransMiter captures the knowledge gap between pre-trained and fine-tuned VLMs, in an 'unsupervised' manner. Once trained, this knowledge can be seamlessly transferred across different models without the need for backpropagation. Moreover, TransMiter consists of only a few layers, inducing a negligible additional inference cost. Notably, supplementing the process with a few labeled data further yields additional performance gain, often surpassing a fine-tuned stronger model, with a marginal training cost. Experimental results and analyses demonstrate that TransMiter effectively and efficiently transfers adaptation knowledge while preserving generalization abilities across VLMs of different sizes and architectures in visual recognition tasks.

Ссылки и действия