Adapting Vision-Language Models Without Labels: A Comprehensive Survey

2508.05547v1 cs.LG, cs.AI, cs.CV 2025-08-08

Авторы:

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы объединенные модели зрения и языка (Vision-Language Models, VLMs) продемонстрировали выдающиеся способности к обобщению на широком спектре задач, включая распознавание изображений, визуально-языковое понимание и генерацию. Однако, несмотря на впечатляющие базовые результаты, прямое применение этих моделей к конкретным прикладным сценариям без специфической адаптации часто приводит к субоптимальной производительности. Это наблюдается в ситуациях с доменным сдвигом, специфическими распределениями данных или уникальными требованиями конечной задачи. Проблема усложняется тем, что традиционные методы адаптации требуют больших объемов размеченных данных, что затрудняет их практическое применение. Сбор и маркировка данных может быть крайне дорогостоящим, особенно в специализированных областях, таких как медицинская диагностика, промышленная инспекция или автономное вождение. Это привело к растущему интересу к методам адаптации без надзора, которые не требуют размеченных данных. Существующие исследования в этой области фрагментированы и отсутствует систематическое понимание различных подходов. Разные методы предполагают различные уровни доступа к данным, от полного их отсутствия до стриминговых данных в реальном времени. Отсутствие унифицированной таксономии и сравнительного анализа затрудняет выбор подходящего метода для конкретной задачи. Эта статья заполняет критический пробел в литературе, предоставляя всесторонний обзор методов адаптации VLMs без использования меток. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают систематическую таксономию методов адаптации VLMs без меток, основанную на доступности и характере неразмеченных визуальных данных. Таксономия включает четыре ключевых парадигмы, каждая из которых оптимизирована для конкретного сценария распределения данных. Первая парадигма - Data-Free Transfer (передача без данных) - предполагает полное отсутствие доступных данных из целевого домена. Методы в этой категории полагаются на синтетические данные, сгенерированные из предобученных генеративных моделей, или используют мета-информацию из исходного модального пространства. Основная стратегия заключается в генерации псевдоданных, которые имитируют характеристики целевого домена, с последующей адаптацией модели через методы дистилляции знаний. Вторая парадигма - Unsupervised Domain Transfer (нерегулируемая передача домена) - применяется когда доступны большие объемы неразмеченных данных целевого домена. Методы здесь используют стратегии выравнивания распределений, такие как adversarial adaptation, feature alignment и self-supervised learning. Специфическая архитектура включает итеративное обучение с механизмами контрастивной потери и pseudo-labeling. Третья парадигма - Episodic Test-Time Adaptation (эпизодическая адаптация во время тестирования) - работает с батчами данных, поступающих периодически. Методы используют механизмы обратного распространения с адаптивными оптимизаторами, обновляющими только normalization layers или lightweight adaptation modules. Ключевое техническое решение - использование entropy minimization и consistency regularization для стабильной адаптации. Четвертая парадигма - Online Test-Time Adaptation (онлайн адаптация во время тестирования) - спроектирована для стриминговых данных в реальном времени. Архитектура включает буферы ограниченного размера, online learning алгоритмы и механизмы быстрой адаптации. Методы используют мета-обучение и continual learning стратегии для предотвращения катастрофического забывания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексное эмпирическое исследование, охватывающее 15+ представительных методов из каждой парадигмы. Эксперименты проводились на 8 различных наборах данных, включая ImageNet, CIFAR-10/100, DomainNet, Office-Home, CUB-200, Food-101, а также специализированные наборы для медицинской визуализации и автономного вождения. Для Data-Free Transfer методов, использовались различные генеративные модели (StyleGAN, BigGAN, diffusion models) для создания синтетических данных. Результаты показали, что качество синтетических данных напрямую коррелирует с эффективностью адаптации, причем diffusion-based подходы демонстрировали наибольшую устойчивость к доменному сдвигу. Наибольшие улучшения наблюдались в сценариях

Abstract

Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unified, task-oriented survey dedicated to unsupervised VLM adaptation. To bridge this gap, we present a comprehensive and structured overview of the field. We propose a taxonomy based on the availability and nature of unlabeled visual data, categorizing existing approaches into four key paradigms: Data-Free Transfer (no data), Unsupervised Domain Transfer (abundant data), Episodic Test-Time Adaptation (batch data), and Online Test-Time Adaptation (streaming data). Within this framework, we analyze core methodologies and adaptation strategies associated with each paradigm, aiming to establish a systematic understanding of the field. Additionally, we review representative benchmarks across diverse applications and highlight open challenges and promising directions for future research. An actively maintained repository of relevant literature is available at https://github.com/tim-learn/Awesome-LabelFree-VLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TV2TV: A Unified Framework for Interleaved Language and Video Generation

The Universal Weight Subspace Hypothesis

STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Gra...

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A...

First On-Orbit Demonstration of a Geospatial Foundation Model

Навигация