Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval
2508.04028v1
cs.CV, cs.IR
2025-08-09
Авторы:
Yifan Wang, Tao Wang, Chenwei Tang, Caiyang Yu, Zhengqing Zang, Mengmi Zhang, Shudong Huang, Jiancheng Lv
Резюме на русском
Данная работа адресует проблему применения динамического обучения с помощью предложений (prompt learning) для адаптации визуально-языковых моделей (Vision-Language Models, VLMs) к задаче изображение-текст поиска (image-text retrieval, ITR). Ранее продемонстрированная эффективность prompt learning в изображении-классификации оказывается менее устойчивой для задач ITR из-за сложности отличительного описания тонких атрибутов и подкатегорий в потоке данных. Чтобы устранить эту проблему, предложено дополнительное решение Dual Prompt Learning with Joint Category-Attribute Reweighting (DCAR), которое включает двухуровневую параметризацию. Оно позволяет многообразию классов и атрибутов на уровне точного совпадения для изображений и текстов. Технология изучает признаки категорий и атрибутов в рамках двух промптов, динамически адаптируя веса в зависимости от корреляции текста и изображения, что позволяет улучшить точность и яркость представления. Эксперименты на созданной Fine-class Described Retrieval Dataset (FDRD) показали, что DCAR превосходит существующие базовые системы, устанавливая новый состояние ведущей модели в такой области интеллектуальных технологий.
Abstract
Recently, prompt learning has demonstrated remarkable success in adapting
pre-trained Vision-Language Models (VLMs) to various downstream tasks such as
image classification. However, its application to the downstream Image-Text
Retrieval (ITR) task is more challenging. We find that the challenge lies in
discriminating both fine-grained attributes and similar subcategories of the
downstream data. To address this challenge, we propose Dual prompt Learning
with Joint Category-Attribute Reweighting (DCAR), a novel dual-prompt learning
framework to achieve precise image-text matching. The framework dynamically
adjusts prompt vectors from both semantic and visual dimensions to improve the
performance of CLIP on the downstream ITR task. Based on the prompt paradigm,
DCAR jointly optimizes attribute and class features to enhance fine-grained
representation learning. Specifically, (1) at the attribute level, it
dynamically updates the weights of attribute descriptions based on text-image
mutual information correlation; (2) at the category level, it introduces
negative samples from multiple perspectives with category-matching weighting to
learn subcategory distinctions. To validate our method, we construct the
Fine-class Described Retrieval Dataset (FDRD), which serves as a challenging
benchmark for ITR in downstream data domains. It covers over 1,500 downstream
fine categories and 230,000 image-caption pairs with detailed attribute
annotations. Extensive experiments on FDRD demonstrate that DCAR achieves
state-of-the-art performance over existing baselines.
Ссылки и действия
Дополнительные ресурсы: