TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation

2508.06452v1 cs.CV, cs.LG 2025-08-12
Авторы:

Mattia Litrico, Mario Valerio Giuffrida, Sebastiano Battiato, Devis Tuia

Резюме на русском

#### Контекст Исследование рассматривает проблему неуправляемого доменного адаптирования (Unsupervised Domain Adaptation, UDA), когда стандартные методы испытывают трудности при сложных доменных сдвигах, таких как географические или стилистические различия. Эти сдвиги приводят к разным природам фонов и объектов в исходном и целевом домене, что существенно снижает эффективность адаптированных моделей. Учитывая, что языковая модификация показала устойчивость к таким сложным сдвигам, предлагается новый подход, использующий языковую модель для улучшения адаптации визуальных моделей. #### Метод Предлагаемый подход, **TRUST (Trustworthy Text-Guided Unsupervised Domain Adaptation)**, строится на основе использования текстовых описаний (капшенов) для обучения визуальных моделей. Метод создает псевдометки для целевых образов на основе текстовых описаний, используя модель генеративного языкового моделирования. Была разработана новая стратегия оценки неопределенности, основанная на скоррелированной нормированной схожести образов и текстов (CLIP), чтобы оценивать качество псевдометок и применять весовое корректирование для уменьшения влияния неверных меток. Для дальнейшего улучшения модели визуального распознавания введена многомодальная soft-contrastive loss, которая выравнивает пространства визуальных и текстовых признаков, используя текстовые описания для управления противоположностью визуальных представлений. #### Результаты На тренировочных данных DomainNet и GeoNet показаны результаты, показывающие превосходство над существующими методами доменного адаптирования. За счет использования текстовых описаний и многомодальной стратегии уменьшается частота ошибок в псевдометках и увеличивается устойчивость модели к сложным доменным сдвигам. Результаты на GeoNet, где происходят сильные сдвиги в фоновом и объектном виде, показывают, что TRUST превосходит предыдущие решения, устанавливая новый стандарт в тестировании UDA. #### Значимость Предложенный подход может быть применен в сценариях, где существуют сильные доменные сдвиги, такие как между синтетическими и реальными данными, между различными географическими областями или стилями. Он позволяет улучшить точность и надежность визуальных моделей в сложных со сдвигами реальности. Была доказана высокая эффективность приложений текстов в дополнение к визуальным моделям для более надежного доменного адаптирования. #### Выводы Результаты показывают, что TRUST значительно улучшает эффективность адаптации визуальных моделей при сложных доменных сдвигах. Будущие исследования будут направлены на улучшение многомодальной стратегии и расширение применений для других типов доменных сдви

Abstract

Recent unsupervised domain adaptation (UDA) methods have shown great success in addressing classical domain shifts (e.g., synthetic-to-real), but they still suffer under complex shifts (e.g. geographical shift), where both the background and object appearances differ significantly across domains. Prior works showed that the language modality can help in the adaptation process, exhibiting more robustness to such complex shifts. In this paper, we introduce TRUST, a novel UDA approach that exploits the robustness of the language modality to guide the adaptation of a vision model. TRUST generates pseudo-labels for target samples from their captions and introduces a novel uncertainty estimation strategy that uses normalised CLIP similarity scores to estimate the uncertainty of the generated pseudo-labels. Such estimated uncertainty is then used to reweight the classification loss, mitigating the adverse effects of wrong pseudo-labels obtained from low-quality captions. To further increase the robustness of the vision model, we propose a multimodal soft-contrastive learning loss that aligns the vision and language feature spaces, by leveraging captions to guide the contrastive training of the vision model on target images. In our contrastive loss, each pair of images acts as both a positive and a negative pair and their feature representations are attracted and repulsed with a strength proportional to the similarity of their captions. This solution avoids the need for hardly determining positive and negative pairs, which is critical in the UDA setting. Our approach outperforms previous methods, setting the new state-of-the-art on classical (DomainNet) and complex (GeoNet) domain shifts. The code will be available upon acceptance.

Ссылки и действия