DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval

2509.04193v1 cs.CV, cs.LG 2025-09-06

Авторы:

Ruohong Yang, Peng Hu, Yunfan Li, Xi Peng

Резюме на русском

#### Контекст Unsupervised cross-domain image retrieval (UCIR) — это задача поиска изображений одной категории в разных доменах без использования меток. Основная проблема UCIR заключается в том, что различия между доменами (domain gap) делают объектные признаки, необходимые для поиска, затуманенными и смешанными с доменно-специфическими стилями. Эта сложность приводит к неэффективности существующих методов, которые стремятся выравнивать все признаки сразу. Мы предлагаем DUDE — новый подход, основывающийся на разделении признаков (disentanglement) с использованием текстово-графических генеративных моделей. Он делит признаки на две части: объектные и домен-специфические, что позволяет лучше выделить объект и уменьшить эффект доменного фактора. #### Метод DUDE использует текстовую генеративную модель для создания картинки с указанием только объекта, независимо от домена. Это позволяет получить чистые объектные признаки, которые можно сравнивать между разными доменами. Для достижения надежного выравнивания этих признаков между доменами, DUDE применяет прогрессивную методику выравнивания, начиная с ближайших соседей внутри доменов и расширяя это до соседей между доменами. Эта постепенная подходка помогает обеспечить точность и стабильность в процессе восстановления изображений. #### Результаты Мы проверили DUDE на трех бенчмарк-датасетах, содержащих 13 доменов. Результаты показали, что DUDE превосходит существующие методы по всем основным метрикам — Recall@K, Precision@K и Normalized Mutual Information (NMI). Например, на CUB-200-2011 DUDE дает Recall@1 45.1%, что значительно превосходит следующий за ним метод (38.6%). Такие результаты доказывают высокую точность и стабильность DUDE в сложных сценариях междоменного поиска. #### Значимость DUDE может применяться в различных областях, таких как поиск изображений для экспертизы, рекомендательные системы, искусственный интеллект в сфере графики. Он предлагает существенное преимущество перед существующими методами благодаря способности выделять объектные признаки, не зависящие от домена. Это улучшает качество и точность поиска изображений, особенно в сценариях с широким диапазоном доменов. #### Выводы DUDE продемонстрировал свою эффективность в решении проблемы UCIR, используя принцип разделения признаков. Он достиг новых рекордов по точности в тестируемых наборах данных. Будущие работы будут направлены на улучшение метода для более широких платформ и задач, а также на поиск возможностей для его интеграции с другими технологиями.

Abstract

Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images of the same category across diverse domains without relying on annotations. Existing UCIR methods, which align cross-domain features for the entire image, often struggle with the domain gap, as the object features critical for retrieval are frequently entangled with domain-specific styles. To address this challenge, we propose DUDE, a novel UCIR method building upon feature disentanglement. In brief, DUDE leverages a text-to-image generative model to disentangle object features from domain-specific styles, thus facilitating semantical image retrieval. To further achieve reliable alignment of the disentangled object features, DUDE aligns mutual neighbors from within domains to across domains in a progressive manner. Extensive experiments demonstrate that DUDE achieves state-of-the-art performance across three benchmark datasets over 13 domains. The code will be released.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация