Unified modality separation: A vision-language framework for unsupervised domain adaptation

2508.04987v1 cs.CV 2025-08-09
Авторы:

Xinyao Li, Jingjing Li, Zhekai Du, Lei Zhu, Heng Tao Shen

Резюме на русском

**Резюме** Unsupervised domain adaptation (UDA) позволяет моделям, обученным на основе меток, работать с новыми неотмеченными доменами. Недавние успехи видио-лингвистических моделей (VLMs) в zero-shot задачах показывают, что семантическая информация может уменьшить доменные различия. Однако существуют внутренние модальностных различий, известных как modality gap. Мы выявили, что прямая UDA сталкивается с этим проблемой, передавая только модально-независимый контекст, что приводит к оптимальным результатам. Для решения этой проблемы мы предложили фреймворк Unified Modality Separation, который разделяет в VLMs модально-специальные и модально-независимые компоненты. Также, в тесте применяются адаптивные взвеши, чтобы объединить различные модальные компоненты. Мы предложили метрику modality discrepancy для классификации примеров по модальностным характеристикам. Эта новая модель демонстрирует до 9% выигрыша в производительности, при этом расходы на вычисления сокращаются в 9 раз. Эксперименты подтверждают эффективность наших подходов на различных датасетах и адаптационных условиях.

Abstract

Unsupervised domain adaptation (UDA) enables models trained on a labeled source domain to handle new unlabeled domains. Recently, pre-trained vision-language models (VLMs) have demonstrated promising zero-shot performance by leveraging semantic information to facilitate target tasks. By aligning vision and text embeddings, VLMs have shown notable success in bridging domain gaps. However, inherent differences naturally exist between modalities, which is known as modality gap. Our findings reveal that direct UDA with the presence of modality gap only transfers modality-invariant knowledge, leading to suboptimal target performance. To address this limitation, we propose a unified modality separation framework that accommodates both modality-specific and modality-invariant components. During training, different modality components are disentangled from VLM features then handled separately in a unified manner. At test time, modality-adaptive ensemble weights are automatically determined to maximize the synergy of different components. To evaluate instance-level modality characteristics, we design a modality discrepancy metric to categorize samples into modality-invariant, modality-specific, and uncertain ones. The modality-invariant samples are exploited to facilitate cross-modal alignment, while uncertain ones are annotated to enhance model capabilities. Building upon prompt tuning techniques, our methods achieve up to 9% performance gain with 9 times of computational efficiencies. Extensive experiments and analysis across various backbones, baselines, datasets and adaptation settings demonstrate the efficacy of our design.

Ссылки и действия