Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering

2508.11272v1 cs.CV, cs.AI 2025-08-19

Авторы:

Jun Li, Kai Li, Shaoguo Liu, Tingting Gao

Резюме на русском

## Контекст Composed Image Retrieval (CIR) является важной областью исследований в области компьютерного зрения и обработки информации, так как она специально стоит перед вызовом совмещения визуальной и текстовой информации для точного поиска целевых изображений. Несмотря на прогресс в области обучения с подкреплением и методов машинного обучения, CIR остается сложной задачей, требующей понимания деталей как в визуальной, так и в текстовой сферах. Традиционные подходы часто страдают от того, что недостаточно уделяется вниманию тонкой интерпретации текста и визуальных содержаний, что приводит к ошибкам в системах поиска. Этот факт подчеркивает необходимость развития более точных и эффективных моделей, которые могли бы обеспечить квалифицированный поиск изображений при минимальных потребностях в тренировочных данных. ## Метод Предлагаемый подход, Pyramid Matching Model with Training-Free Refinement (PMTFR), основывается на сочетании технологий Chain-of-Thought (CoT) и Pyramid Matching Model. Модель Pyramid Matching Model обладает способностью понимать визуальные данные на разных уровнях гранулярности, что включает в себя особенности визуальных элементов на разных уровнях детализации. В рамках нового подхода, CoT-данные используются для извлечения информации из текстовых инструкций, что позволяет лучше понять целевые изображения. Беспроволочная модель тренировки, основанная на непосредственном расширении текстовых сигналов, позволяет повысить точность поиска без дополнительного обучения моделей. Этот подход снижает затраты на обучение, оптимизируя точность и разрешая проблемы с хранением и переработкой информации в системах CIR. ## Результаты На бенчмарк-данных CIR была проведена серия экспериментов, сравнивающих PMTFR с другими современными методами. Результаты показали, что PMTFR превосходит ранее использовавшиеся методы в задачах поиска изображений, особенно в случае необходимости точного разбора сочетания текстовых и визуальных сигналов. Эксперименты показали, что модель PMTFR демонстрирует высокую точность в случае задач CIR с небольшими обучающими данными, что свидетельствует о значительном потенциале этого подхода в ситуациях, где данных для обучения ограничены. Интеграция CoT и Pyramid Matching Model дала возможность повысить четкость и точность результатов поиска. ## Значимость Предложенный подход имеет широкие области применения в области компьютерного зрения, в том числе в медицине, в образовании и в графике. Он может быть использован для повышения точности поиска изображений в системах роботов, практических приложениях в городских системах и в системах, требующих точного сопоставления визуальных элементов и текстовых сигналов

Abstract

Composed Image Retrieval (CIR) presents a significant challenge as it requires jointly understanding a reference image and a modified textual instruction to find relevant target images. Some existing methods attempt to use a two-stage approach to further refine retrieval results. However, this often requires additional training of a ranking model. Despite the success of Chain-of-Thought (CoT) techniques in reducing training costs for language models, their application in CIR tasks remains limited -- compressing visual information into text or relying on elaborate prompt designs. Besides, existing works only utilize it for zero-shot CIR, as it is challenging to achieve satisfactory results in supervised CIR with a well-trained model. In this work, we proposed a framework that includes the Pyramid Matching Model with Training-Free Refinement (PMTFR) to address these challenges. Through a simple but effective module called Pyramid Patcher, we enhanced the Pyramid Matching Model's understanding of visual information at different granularities. Inspired by representation engineering, we extracted representations from COT data and injected them into the LVLMs. This approach allowed us to obtain refined retrieval scores in the Training-Free Refinement paradigm without relying on explicit textual reasoning, further enhancing performance. Extensive experiments on CIR benchmarks demonstrate that PMTFR surpasses state-of-the-art methods in supervised CIR tasks. The code will be made public.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация