DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval
2509.04193v1
cs.CV, cs.LG
2025-09-06
Авторы:
Ruohong Yang, Peng Hu, Yunfan Li, Xi Peng
Резюме на русском
#### Контекст
Unsupervised cross-domain image retrieval (UCIR) — это задача поиска изображений одной категории в разных доменах без использования меток. Основная проблема UCIR заключается в том, что различия между доменами (domain gap) делают объектные признаки, необходимые для поиска, затуманенными и смешанными с доменно-специфическими стилями. Эта сложность приводит к неэффективности существующих методов, которые стремятся выравнивать все признаки сразу. Мы предлагаем DUDE — новый подход, основывающийся на разделении признаков (disentanglement) с использованием текстово-графических генеративных моделей. Он делит признаки на две части: объектные и домен-специфические, что позволяет лучше выделить объект и уменьшить эффект доменного фактора.
#### Метод
DUDE использует текстовую генеративную модель для создания картинки с указанием только объекта, независимо от домена. Это позволяет получить чистые объектные признаки, которые можно сравнивать между разными доменами. Для достижения надежного выравнивания этих признаков между доменами, DUDE применяет прогрессивную методику выравнивания, начиная с ближайших соседей внутри доменов и расширяя это до соседей между доменами. Эта постепенная подходка помогает обеспечить точность и стабильность в процессе восстановления изображений.
#### Результаты
Мы проверили DUDE на трех бенчмарк-датасетах, содержащих 13 доменов. Результаты показали, что DUDE превосходит существующие методы по всем основным метрикам — Recall@K, Precision@K и Normalized Mutual Information (NMI). Например, на CUB-200-2011 DUDE дает Recall@1 45.1%, что значительно превосходит следующий за ним метод (38.6%). Такие результаты доказывают высокую точность и стабильность DUDE в сложных сценариях междоменного поиска.
#### Значимость
DUDE может применяться в различных областях, таких как поиск изображений для экспертизы, рекомендательные системы, искусственный интеллект в сфере графики. Он предлагает существенное преимущество перед существующими методами благодаря способности выделять объектные признаки, не зависящие от домена. Это улучшает качество и точность поиска изображений, особенно в сценариях с широким диапазоном доменов.
#### Выводы
DUDE продемонстрировал свою эффективность в решении проблемы UCIR, используя принцип разделения признаков. Он достиг новых рекордов по точности в тестируемых наборах данных. Будущие работы будут направлены на улучшение метода для более широких платформ и задач, а также на поиск возможностей для его интеграции с другими технологиями.
Abstract
Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images of
the same category across diverse domains without relying on annotations.
Existing UCIR methods, which align cross-domain features for the entire image,
often struggle with the domain gap, as the object features critical for
retrieval are frequently entangled with domain-specific styles. To address this
challenge, we propose DUDE, a novel UCIR method building upon feature
disentanglement. In brief, DUDE leverages a text-to-image generative model to
disentangle object features from domain-specific styles, thus facilitating
semantical image retrieval. To further achieve reliable alignment of the
disentangled object features, DUDE aligns mutual neighbors from within domains
to across domains in a progressive manner. Extensive experiments demonstrate
that DUDE achieves state-of-the-art performance across three benchmark datasets
over 13 domains. The code will be released.
Ссылки и действия
Дополнительные ресурсы: