Chat-Driven Text Generation and Interaction for Person Retrieval
2509.12662v1
cs.CL, I.2.7; I.4.9
2025-09-18
Авторы:
Zequn Xie, Chuxin Wang, Sihang Cai, Yeqiang Wang, Shulei Wang, Tao Jin
Резюме на русском
#### Контекст
Text-based person search (TBPS) — это важная задача, позволяющая искать изображения людей в больших базах данных с помощью естественного языка. Она находит применение в областях, таких как слежение и безопасность. Однако одной из самых сложных проблем в этой области является необходимость подготовить качественные текстовые описания для каждого изображения. Это затрудняет масштабирование и применение таких систем в реальной жизни. Для решения этой проблемы необходимо создать автоматизированные методы, которые смогут генерировать текстовые метки и динамически интерпретировать пользовательские запросы.
#### Метод
Мы предлагаем два модуля, которые работают вместе для улучшения TBPS: **Multi-Turn Text Generation (MTG)** и **Multi-Turn Text Interaction (MTI)**. **MTG** генерирует финергрантные и разнообразные текстовые описания за счет симулированных диалогов с многомодальными языковыми моделями (MLLMs). Это позволяет создавать псевдометки без ручной аннотации. **MTI**, в свою очередь, адаптирует запросы пользователя во время выполнения запроса, используя динамическую диалоговую природу запросов. Он динамически анализирует неточные, неполные или неясные запросы, чтобы улучшить точность и универсальность системы. Эти два модуля объединены в единое целое, не требующее контролируемых текстовых меток.
#### Результаты
Мы провели подробные эксперименты, используя различные данные, включая сценарии с реальными образами. Мы сравнивали нашу модель с другими подходами в задаче TBPS. Результаты показали, что наш подход существенно улучшает точность поиска, устойчивость к неточным запросам и общую эффективность. Благодаря тому, что не требуется ручная аннотация, наш метод проявляет преимущества в масштабируемости и применении в реальной жизни.
#### Значимость
Наша модель может применяться в следующих областях: мониторинге и безопасности, поиске лиц в массовых сборах и транспортных узлах. Она предлагает выгоды, такие как снижение количества необходимой ручной работы, улучшение скорости и точности поиска, а также увеличение универсальности системы. Это открывает новые возможности для применения TBPS в реальном времени, особенно там, где недоступны дорогостоящие ручные метки или где нужно быстро реагировать на интересующие запросы.
#### Выводы
Наш проект доказывает, что автоматизированные методы генерации и интерпретации текста могут эффективно заменять ручные метки в TBPS, делая такую систему более доступной и эффективной. Мы планируем дальнейшее исследование по предсказанию текстовых описаний в разных условиях, а также расширение функциональности для других задач, в
Abstract
Text-based person search (TBPS) enables the retrieval of person images from
large-scale databases using natural language descriptions, offering critical
value in surveillance applications. However, a major challenge lies in the
labor-intensive process of obtaining high-quality textual annotations, which
limits scalability and practical deployment. To address this, we introduce two
complementary modules: Multi-Turn Text Generation (MTG) and Multi-Turn Text
Interaction (MTI). MTG generates rich pseudo-labels through simulated dialogues
with MLLMs, producing fine-grained and diverse visual descriptions without
manual supervision. MTI refines user queries at inference time through dynamic,
dialogue-based reasoning, enabling the system to interpret and resolve vague,
incomplete, or ambiguous descriptions - characteristics often seen in
real-world search scenarios. Together, MTG and MTI form a unified and
annotation-free framework that significantly improves retrieval accuracy,
robustness, and usability. Extensive evaluations demonstrate that our method
achieves competitive or superior results while eliminating the need for manual
captions, paving the way for scalable and practical deployment of TBPS systems.
Ссылки и действия
Дополнительные ресурсы: