Chat-Driven Text Generation and Interaction for Person Retrieval

2509.12662v1 cs.CL, I.2.7; I.4.9 2025-09-18
Авторы:

Zequn Xie, Chuxin Wang, Sihang Cai, Yeqiang Wang, Shulei Wang, Tao Jin

Резюме на русском

#### Контекст Text-based person search (TBPS) — это важная задача, позволяющая искать изображения людей в больших базах данных с помощью естественного языка. Она находит применение в областях, таких как слежение и безопасность. Однако одной из самых сложных проблем в этой области является необходимость подготовить качественные текстовые описания для каждого изображения. Это затрудняет масштабирование и применение таких систем в реальной жизни. Для решения этой проблемы необходимо создать автоматизированные методы, которые смогут генерировать текстовые метки и динамически интерпретировать пользовательские запросы. #### Метод Мы предлагаем два модуля, которые работают вместе для улучшения TBPS: **Multi-Turn Text Generation (MTG)** и **Multi-Turn Text Interaction (MTI)**. **MTG** генерирует финергрантные и разнообразные текстовые описания за счет симулированных диалогов с многомодальными языковыми моделями (MLLMs). Это позволяет создавать псевдометки без ручной аннотации. **MTI**, в свою очередь, адаптирует запросы пользователя во время выполнения запроса, используя динамическую диалоговую природу запросов. Он динамически анализирует неточные, неполные или неясные запросы, чтобы улучшить точность и универсальность системы. Эти два модуля объединены в единое целое, не требующее контролируемых текстовых меток. #### Результаты Мы провели подробные эксперименты, используя различные данные, включая сценарии с реальными образами. Мы сравнивали нашу модель с другими подходами в задаче TBPS. Результаты показали, что наш подход существенно улучшает точность поиска, устойчивость к неточным запросам и общую эффективность. Благодаря тому, что не требуется ручная аннотация, наш метод проявляет преимущества в масштабируемости и применении в реальной жизни. #### Значимость Наша модель может применяться в следующих областях: мониторинге и безопасности, поиске лиц в массовых сборах и транспортных узлах. Она предлагает выгоды, такие как снижение количества необходимой ручной работы, улучшение скорости и точности поиска, а также увеличение универсальности системы. Это открывает новые возможности для применения TBPS в реальном времени, особенно там, где недоступны дорогостоящие ручные метки или где нужно быстро реагировать на интересующие запросы. #### Выводы Наш проект доказывает, что автоматизированные методы генерации и интерпретации текста могут эффективно заменять ручные метки в TBPS, делая такую систему более доступной и эффективной. Мы планируем дальнейшее исследование по предсказанию текстовых описаний в разных условиях, а также расширение функциональности для других задач, в

Abstract

Text-based person search (TBPS) enables the retrieval of person images from large-scale databases using natural language descriptions, offering critical value in surveillance applications. However, a major challenge lies in the labor-intensive process of obtaining high-quality textual annotations, which limits scalability and practical deployment. To address this, we introduce two complementary modules: Multi-Turn Text Generation (MTG) and Multi-Turn Text Interaction (MTI). MTG generates rich pseudo-labels through simulated dialogues with MLLMs, producing fine-grained and diverse visual descriptions without manual supervision. MTI refines user queries at inference time through dynamic, dialogue-based reasoning, enabling the system to interpret and resolve vague, incomplete, or ambiguous descriptions - characteristics often seen in real-world search scenarios. Together, MTG and MTI form a unified and annotation-free framework that significantly improves retrieval accuracy, robustness, and usability. Extensive evaluations demonstrate that our method achieves competitive or superior results while eliminating the need for manual captions, paving the way for scalable and practical deployment of TBPS systems.

Ссылки и действия