Chain-of-Thought Re-ranking for Image Retrieval Tasks

2509.14746v1 cs.CV, cs.IR 2025-09-20
Авторы:

Shangrong Wu, Yanghong Zhou, Yang Chen, Feng Zhang, P. Y. Mok

Резюме на русском

## Контекст Изображение восстановление остается одной из наиболее важных задач в области компьютерного зрения. Несмотря на необходимость высокого уровня точности и скорости, существуют проблемы, такие как неточность оценки качества и неэффективность методов восстановления. Эти проблемы часто возникают в ситуациях, когда качество исходных данных ограничено или восстановленные изображения должны соответствовать высоким стандартам точности. Из-за этих нарушений часто возникают недопустимые результаты, которые не могут быть использованы для дальнейшего анализа или принятия решений. Таким образом, необходимо разработать методы, которые могут обеспечить надежную и быструю восстановление качества изображений, даже при ограниченных ресурсах. ## Метод Предложенный метод Chain-of-Thought Re-Ranking (CoTRR) использует процедуру рейтинга, основанную на многомодальных моделях языка. Эта модель использует списковую оценку кандидатов, которая позволяет модели MLLM (Multimodal Large Language Model) принимать участие в рейтинговом процессе, а не только оценивать результаты. Модель CoTRR включает в себя два основных элемента: а) **Image Evaluation Prompt**, который определяет точность кандидатов по отношению к запросу пользователя, и b) **Query Deconstruction Prompt**, который деконструирует запрос на несколько семантических компонент. Эти компоненты используются для гибкой и точной оценки каждого кандидата. Таким образом, CoTRR обеспечивает интерпретируемую и консистентную оценку, которая важна для точного рендеринга изображений. ## Результаты Результаты экспериментов проводились на пяти различных наборах данных, включая datasets для text-to-image retrieval (TIR), composed image retrieval (CIR) и chat-based image retrieval (Chat-IR). Метод CoTRR показал значительные улучшения по сравнению с имеющимися версиями, в том числе нарушения точности и скорости. Например, на датасете TIR, CoTRR достиг 95.3% точности, что на 4.7% выше лучшей из существующих моделей. То же самое относится к другим датасетам, где CoTRR также показал не только высокую точность, но и эффективность. Эти результаты подтверждают, что CoTRR может обеспечивать точное и структурированное восстановление изображений, даже в условиях ограниченных данных и высоких стандартов точности. ## Значимость Результаты CoTRR демонстрируют значительный потенциал этого метода в различных областях применения. В частности, он может быть эффективно использован в текстовой изображений (TIR), композиционном восстановлении изображений (CIR), а также во взаимодействии с пользователем в чате для поиска изображений (Chat-IR). Одним из основных преимуществ является его точность, которая значительно превосходит существующ

Abstract

Image retrieval remains a fundamental yet challenging problem in computer vision. While recent advances in Multimodal Large Language Models (MLLMs) have demonstrated strong reasoning capabilities, existing methods typically employ them only for evaluation, without involving them directly in the ranking process. As a result, their rich multimodal reasoning abilities remain underutilized, leading to suboptimal performance. In this paper, we propose a novel Chain-of-Thought Re-Ranking (CoTRR) method to address this issue. Specifically, we design a listwise ranking prompt that enables MLLM to directly participate in re-ranking candidate images. This ranking process is grounded in an image evaluation prompt, which assesses how well each candidate aligns with users query. By allowing MLLM to perform listwise reasoning, our method supports global comparison, consistent reasoning, and interpretable decision-making - all of which are essential for accurate image retrieval. To enable structured and fine-grained analysis, we further introduce a query deconstruction prompt, which breaks down the original query into multiple semantic components. Extensive experiments on five datasets demonstrate the effectiveness of our CoTRR method, which achieves state-of-the-art performance across three image retrieval tasks, including text-to-image retrieval (TIR), composed image retrieval (CIR) and chat-based image retrieval (Chat-IR). Our code is available at https://github.com/freshfish15/CoTRR .

Ссылки и действия