📊 Статистика дайджестов
Всего дайджестов: 35039 Добавлено сегодня: 432
Последнее обновление: сегодня
Авторы:
Zequn Xie, Chuxin Wang, Sihang Cai, Yeqiang Wang, Shulei Wang, Tao Jin
#### Контекст
Text-based person search (TBPS) — это важная задача, позволяющая искать изображения людей в больших базах данных с помощью естественного языка. Она находит применение в областях, таких как слежение и безопасность. Однако одной из самых сложных проблем в этой области является необходимость подготовить качественные текстовые описания для каждого изображения. Это затрудняет масштабирование и применение таких систем в реальной жизни. Для решения этой проблемы необходимо создать автоматизированные методы, которые смогут генерировать текстовые метки и динамически интерпретировать пользовательские запросы.
#### Метод
Мы предлагаем два модуля, которые работают вместе для улучшения TBPS: **Multi-Turn Text Generation (MTG)** и **Multi-Turn Text Interaction (MTI)**. **MTG** генерирует финергрантные и разнообразные текстовые описания за счет симулированных диалогов с многомодальными языковыми моделями (MLLMs). Это позволяет создавать псевдометки без ручной аннотации. **MTI**, в свою очередь, адаптирует запросы пользователя во время выполнения запроса, используя динамическую диалоговую природу запросов. Он динамически анализирует неточные, неполные или неясные запросы, чтобы улучшить точность и универсальность системы. Эти два модуля объединены в единое целое, не требующее контролируемых текстовых меток.
#### Результаты
Мы провели подробные эксперименты, используя различные данные, включая сценарии с реальными образами. Мы сравнивали нашу модель с другими подходами в задаче TBPS. Результаты показали, что наш подход существенно улучшает точность поиска, устойчивость к неточным запросам и общую эффективность. Благодаря тому, что не требуется ручная аннотация, наш метод проявляет преимущества в масштабируемости и применении в реальной жизни.
#### Значимость
Наша модель может применяться в следующих областях: мониторинге и безопасности, поиске лиц в массовых сборах и транспортных узлах. Она предлагает выгоды, такие как снижение количества необходимой ручной работы, улучшение скорости и точности поиска, а также увеличение универсальности системы. Это открывает новые возможности для применения TBPS в реальном времени, особенно там, где недоступны дорогостоящие ручные метки или где нужно быстро реагировать на интересующие запросы.
#### Выводы
Наш проект доказывает, что автоматизированные методы генерации и интерпретации текста могут эффективно заменять ручные метки в TBPS, делая такую систему более доступной и эффективной. Мы планируем дальнейшее исследование по предсказанию текстовых описаний в разных условиях, а также расширение функциональности для других задач, в
Annotation:
Text-based person search (TBPS) enables the retrieval of person images from
large-scale databases using natural language descriptions, offering critical
value in surveillance applications. However, a major challenge lies in the
labor-intensive process of obtaining high-quality textual annotations, which
limits scalability and practical deployment. To address this, we introduce two
complementary modules: Multi-Turn Text Generation (MTG) and Multi-Turn Text
Interaction (MTI). MTG generates rich ps...