TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation
2508.06452v1
cs.CV, cs.LG
2025-08-12
Авторы:
Mattia Litrico, Mario Valerio Giuffrida, Sebastiano Battiato, Devis Tuia
Резюме на русском
#### Контекст
Исследование рассматривает проблему неуправляемого доменного адаптирования (Unsupervised Domain Adaptation, UDA), когда стандартные методы испытывают трудности при сложных доменных сдвигах, таких как географические или стилистические различия. Эти сдвиги приводят к разным природам фонов и объектов в исходном и целевом домене, что существенно снижает эффективность адаптированных моделей. Учитывая, что языковая модификация показала устойчивость к таким сложным сдвигам, предлагается новый подход, использующий языковую модель для улучшения адаптации визуальных моделей.
#### Метод
Предлагаемый подход, **TRUST (Trustworthy Text-Guided Unsupervised Domain Adaptation)**, строится на основе использования текстовых описаний (капшенов) для обучения визуальных моделей. Метод создает псевдометки для целевых образов на основе текстовых описаний, используя модель генеративного языкового моделирования. Была разработана новая стратегия оценки неопределенности, основанная на скоррелированной нормированной схожести образов и текстов (CLIP), чтобы оценивать качество псевдометок и применять весовое корректирование для уменьшения влияния неверных меток. Для дальнейшего улучшения модели визуального распознавания введена многомодальная soft-contrastive loss, которая выравнивает пространства визуальных и текстовых признаков, используя текстовые описания для управления противоположностью визуальных представлений.
#### Результаты
На тренировочных данных DomainNet и GeoNet показаны результаты, показывающие превосходство над существующими методами доменного адаптирования. За счет использования текстовых описаний и многомодальной стратегии уменьшается частота ошибок в псевдометках и увеличивается устойчивость модели к сложным доменным сдвигам. Результаты на GeoNet, где происходят сильные сдвиги в фоновом и объектном виде, показывают, что TRUST превосходит предыдущие решения, устанавливая новый стандарт в тестировании UDA.
#### Значимость
Предложенный подход может быть применен в сценариях, где существуют сильные доменные сдвиги, такие как между синтетическими и реальными данными, между различными географическими областями или стилями. Он позволяет улучшить точность и надежность визуальных моделей в сложных со сдвигами реальности. Была доказана высокая эффективность приложений текстов в дополнение к визуальным моделям для более надежного доменного адаптирования.
#### Выводы
Результаты показывают, что TRUST значительно улучшает эффективность адаптации визуальных моделей при сложных доменных сдвигах. Будущие исследования будут направлены на улучшение многомодальной стратегии и расширение применений для других типов доменных сдви
Abstract
Recent unsupervised domain adaptation (UDA) methods have shown great success
in addressing classical domain shifts (e.g., synthetic-to-real), but they still
suffer under complex shifts (e.g. geographical shift), where both the
background and object appearances differ significantly across domains. Prior
works showed that the language modality can help in the adaptation process,
exhibiting more robustness to such complex shifts. In this paper, we introduce
TRUST, a novel UDA approach that exploits the robustness of the language
modality to guide the adaptation of a vision model. TRUST generates
pseudo-labels for target samples from their captions and introduces a novel
uncertainty estimation strategy that uses normalised CLIP similarity scores to
estimate the uncertainty of the generated pseudo-labels. Such estimated
uncertainty is then used to reweight the classification loss, mitigating the
adverse effects of wrong pseudo-labels obtained from low-quality captions. To
further increase the robustness of the vision model, we propose a multimodal
soft-contrastive learning loss that aligns the vision and language feature
spaces, by leveraging captions to guide the contrastive training of the vision
model on target images. In our contrastive loss, each pair of images acts as
both a positive and a negative pair and their feature representations are
attracted and repulsed with a strength proportional to the similarity of their
captions. This solution avoids the need for hardly determining positive and
negative pairs, which is critical in the UDA setting. Our approach outperforms
previous methods, setting the new state-of-the-art on classical (DomainNet) and
complex (GeoNet) domain shifts. The code will be available upon acceptance.
Ссылки и действия
Дополнительные ресурсы: