Domain Generalization in-the-Wild: Disentangling Classification from Domain-Aware Representations
2508.21769v1
cs.CV, cs.LG
2025-09-02
Авторы:
Ha Min Son, Zhe Zhao, Shahbaz Rezaei, Xin Liu
Резюме на русском
## Контекст
Научное исследование "Domain Generalization in-the-Wild: Disentangling Classification from Domain-Aware Representations" основывается на области domain generalization (DG), которая направлена на обеспечение устойчивости моделей к различным доменам данных. Особенно важно это для фундаментальных моделей, таких как CLIP, которые обучаются на огромных корпусах web-scale данных. Известно, что существующие DG-benchmarks могут быть недостаточно вызовом для моделей, так как CLIP уже может быть "предварительно ознакомлен" с большим объемом данных из этих бенчмарков. Это приводит к снижению значимости стандартных оценок DG. Исследование рассматривает новые подходы для более тщательной оценки DG в "природных условиях", где модель предоставляется чуждому доменному данным.
## Метод
Проведены два основных эксперимента. В первом, CLIP был приспособлен для ImageNet, после чего протестирован на 33 различных OOD-данных с измерением уровня OOD-изъява. Во втором эксперименте, восстановление памяти (unlearning) использовалось для "забывания" CLIP некоторых доменов, что эмулировало набор данных, незнакомых модели. Архитектура CLIP-DCA (Disentangling Classification from enhanced domain Aware representations) заключается в создании отдельного "доменного модуля" для усиления доменной окружающей среды и улучшения обобщаемости. CLIP-DCA также применяет стратегию disentanglement для разделения нейронов модели на классификационные и доменные особенности.
## Результаты
Эксперименты показали, что CLIP испытывает значительные снижения в производительности при работе с OOD-данными после того, как был приспособлен к ImageNet. Обнаружено, что CLIP-DCA не только оказывает значительное улучшение в сравнении с другими подходами, но и показывает выдающиеся результаты на OOD-данных. Это свидетельствует о том, что усиление доменной связанности может быть ключом к эффективной domain generalization, даже в сложных сценариях.
## Значимость
Полученные результаты имеют большое значение для области deep learning и computer vision. Ключевым преимуществом является возможность улучшения моделей для использования в реальных условиях, где данные могут отличаться от обучающего набора. Эти разработки могут найти применение в области глубокого обучения для таких задач, как распознавание объектов, текстово-изображательный поиск и рекомендательные системы. Будущие исследования могут рассматривать расширение CLIP-DCA на другие модели, а также рассмотреть потенциал применения этих подходов в других областях, таких как робототехника и здравоохранение.
## Выводы
Основным достижением является показательное улучшение производительности CLIP в DG-сценариях с помощью CLIP-DCA. Этот подход не только улучшает гибкость модели, но и подчеркивает значение доменной окружающей среды в обеспечении устойчивости моделей. Направления будущих исследова
Abstract
Evaluating domain generalization (DG) for foundational models like CLIP is
challenging, as web-scale pretraining data potentially covers many existing
benchmarks. Consequently, current DG evaluation may neither be sufficiently
challenging nor adequately test genuinely unseen data scenarios. To better
assess the performance of CLIP on DG in-the-wild, a scenario where CLIP
encounters challenging unseen data, we consider two approaches: (1) evaluating
on 33 diverse datasets with quantified out-of-distribution (OOD) scores after
fine-tuning CLIP on ImageNet, and (2) using unlearning to make CLIP `forget'
some domains as an approximation. We observe that CLIP's performance
deteriorates significantly on more OOD datasets. To address this, we present
CLIP-DCA (Disentangling Classification from enhanced domain Aware
representations). Our approach is motivated by the observation that while
standard domain invariance losses aim to make representations domain-invariant,
this can be harmful to foundation models by forcing the discarding of
domain-aware representations beneficial for generalization. We instead
hypothesize that enhancing domain awareness is a prerequisite for effective
domain-invariant classification in foundation models. CLIP-DCA identifies and
enhances domain awareness within CLIP's encoders using a separate domain head
and synthetically generated diverse domain data. Simultaneously, it encourages
domain-invariant classification through disentanglement from the domain
features. CLIP-DCA shows significant improvements within this challenging
evaluation compared to existing methods, particularly on datasets that are more
OOD.
Ссылки и действия
Дополнительные ресурсы: