Composed Object Retrieval: Object-level Retrieval via Composed Expressions

2508.04424v1 cs.CV 2025-08-09
Авторы:

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

Резюме на русском

В статье предлагается новая задача — Composed Object Retrieval (COR), которая расширяет обычный объектно-уровневый поиск, позволяя выполнять выборку на основе композитных выражений, объединяющих справочные объекты и текстовые запросы. Эта задача требует систем отразить широкий диапазон семантических преобразований и выделить целевые объекты из сцены, избегая попадания в область семантически похожих, но неподходящих объектов. Для этого разработан COR127K — первый крупномасштабный COR-бенчмарк с 127 166 тройками поиска в 408 категориях, демонстрирующий различные семантические преобразования. Также представлен CORE, универсальная модель, которая комбинирует кодирование регионов, адаптивное взаимодействие визуального и текстового слоя и контрастное обучение по регионам. На COR127K CORE показала значительные улучшения по сравнению со существующими моделями в основных и новых категориях, устанавливая простой и эффективный базовый подход для дальнейших исследований в области тонкой мультимодальной поиска.

Abstract

Retrieving fine-grained visual content based on user intent remains a challenge in multi-modal systems. Although current Composed Image Retrieval (CIR) methods combine reference images with retrieval texts, they are constrained to image-level matching and cannot localize specific objects. To this end, we propose Composed Object Retrieval (COR), a brand-new task that goes beyond image-level retrieval to achieve object-level precision, allowing the retrieval and segmentation of target objects based on composed expressions combining reference objects and retrieval texts. COR presents significant challenges in retrieval flexibility, which requires systems to identify arbitrary objects satisfying composed expressions while avoiding semantically similar but irrelevant negative objects within the same scene. We construct COR127K, the first large-scale COR benchmark that contains 127,166 retrieval triplets with various semantic transformations in 408 categories. We also present CORE, a unified end-to-end model that integrates reference region encoding, adaptive visual-textual interaction, and region-level contrastive learning. Extensive experiments demonstrate that CORE significantly outperforms existing models in both base and novel categories, establishing a simple and effective baseline for this challenging task while opening new directions for fine-grained multi-modal retrieval research.

Ссылки и действия