Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering
2508.11272v1
cs.CV, cs.AI
2025-08-19
Авторы:
Jun Li, Kai Li, Shaoguo Liu, Tingting Gao
Резюме на русском
## Контекст
Composed Image Retrieval (CIR) является важной областью исследований в области компьютерного зрения и обработки информации, так как она специально стоит перед вызовом совмещения визуальной и текстовой информации для точного поиска целевых изображений. Несмотря на прогресс в области обучения с подкреплением и методов машинного обучения, CIR остается сложной задачей, требующей понимания деталей как в визуальной, так и в текстовой сферах. Традиционные подходы часто страдают от того, что недостаточно уделяется вниманию тонкой интерпретации текста и визуальных содержаний, что приводит к ошибкам в системах поиска. Этот факт подчеркивает необходимость развития более точных и эффективных моделей, которые могли бы обеспечить квалифицированный поиск изображений при минимальных потребностях в тренировочных данных.
## Метод
Предлагаемый подход, Pyramid Matching Model with Training-Free Refinement (PMTFR), основывается на сочетании технологий Chain-of-Thought (CoT) и Pyramid Matching Model. Модель Pyramid Matching Model обладает способностью понимать визуальные данные на разных уровнях гранулярности, что включает в себя особенности визуальных элементов на разных уровнях детализации. В рамках нового подхода, CoT-данные используются для извлечения информации из текстовых инструкций, что позволяет лучше понять целевые изображения. Беспроволочная модель тренировки, основанная на непосредственном расширении текстовых сигналов, позволяет повысить точность поиска без дополнительного обучения моделей. Этот подход снижает затраты на обучение, оптимизируя точность и разрешая проблемы с хранением и переработкой информации в системах CIR.
## Результаты
На бенчмарк-данных CIR была проведена серия экспериментов, сравнивающих PMTFR с другими современными методами. Результаты показали, что PMTFR превосходит ранее использовавшиеся методы в задачах поиска изображений, особенно в случае необходимости точного разбора сочетания текстовых и визуальных сигналов. Эксперименты показали, что модель PMTFR демонстрирует высокую точность в случае задач CIR с небольшими обучающими данными, что свидетельствует о значительном потенциале этого подхода в ситуациях, где данных для обучения ограничены. Интеграция CoT и Pyramid Matching Model дала возможность повысить четкость и точность результатов поиска.
## Значимость
Предложенный подход имеет широкие области применения в области компьютерного зрения, в том числе в медицине, в образовании и в графике. Он может быть использован для повышения точности поиска изображений в системах роботов, практических приложениях в городских системах и в системах, требующих точного сопоставления визуальных элементов и текстовых сигналов
Abstract
Composed Image Retrieval (CIR) presents a significant challenge as it
requires jointly understanding a reference image and a modified textual
instruction to find relevant target images. Some existing methods attempt to
use a two-stage approach to further refine retrieval results. However, this
often requires additional training of a ranking model. Despite the success of
Chain-of-Thought (CoT) techniques in reducing training costs for language
models, their application in CIR tasks remains limited -- compressing visual
information into text or relying on elaborate prompt designs. Besides, existing
works only utilize it for zero-shot CIR, as it is challenging to achieve
satisfactory results in supervised CIR with a well-trained model. In this work,
we proposed a framework that includes the Pyramid Matching Model with
Training-Free Refinement (PMTFR) to address these challenges. Through a simple
but effective module called Pyramid Patcher, we enhanced the Pyramid Matching
Model's understanding of visual information at different granularities.
Inspired by representation engineering, we extracted representations from COT
data and injected them into the LVLMs. This approach allowed us to obtain
refined retrieval scores in the Training-Free Refinement paradigm without
relying on explicit textual reasoning, further enhancing performance. Extensive
experiments on CIR benchmarks demonstrate that PMTFR surpasses state-of-the-art
methods in supervised CIR tasks. The code will be made public.
Ссылки и действия
Дополнительные ресурсы: