MMReID-Bench: Unleashing the Power of MLLMs for Effective and Versatile Person Re-identification

2508.06908v1 cs.CV, cs.AI 2025-08-14
Авторы:

Jinhao Li, Zijian Chen, Lirong Deng, Changbo Wang, Guangtao Zhai

Резюме на русском

## Контекст Персональная реидентификация (ReID) — это задача нахождения изображений интересующего объекта среди галереи изображений. Она находит широкое применение в областях медицинской реабилитации, обнаружения аномального поведения и обеспечения общественной безопасности. Однако традиционные модели ReID обладают ограниченными возможностями, ограничивающими их универсальность при работе с многомодальными данными, такими как RGB, термальные и инфракрасные изображения, рисунки-скетчы и текстовые описания. Недавно появление многомодальных больших языковых моделей (MLLMs) открыло новые возможности для решения этих проблем. Тем не менее, существующие методы используют MLLMs только как инструменты для вывода признаков или генерации текстовых описаний. Это не полностью использует их потенциал в области рассуждения, подчинения инструкций и кросс-модального понимания. Чтобы преодолеть эти ограничения, мы предлагаем MMReID-Bench — первый многозадачный многомодальный бенчмарк, созданный специально для реидентификации персон. ## Метод MMReID-Bench включает 20 710 многомодальных запросов и изображений-галерей, покрывающих 10 разных задач реидентификации персон. Он охватывает такие модальности, как RGB, термальная и инфракрасная съемка, а также рисунки-скетчы и текстовые описания. Методология базируется на использовании MLLMs в качестве многозадачных моделей, объединяющих в себе возможности рассуждения, подчинения инструкций и кросс-модального понимания. Эти модели обучаются на многомодальных данных, чтобы обеспечить широкий спектр возможностей для решения задач реидентификации. Это позволяет использовать MLLMs в новых сценариях, которые прежде не были достижимы. ## Результаты Эксперименты показывают, что MLLMs способны эффективно выполнять задачи реидентификации в различных модальных условиях. Они показали высокую точность при работе с RGB-изображениями, но имеют более слабый результат при обработке термальных и инфракрасных данных. Это связано с ограниченной способностью MLLMs полностью рассуждать и работать с этими модальностями. Несмотря на это, результаты продемонстрировали значительный потенциал MLLMs в обеспечении универсальных решений для реидентификации персон, которые могут быть применены в различных сценариях. ## Значимость MMReID-Bench открывает новые перспективы для развития многомодальных моделей ReID, которые могут быть использованы в различных приложениях, включая медицинскую реабилитацию, обнаружение аномального поведения и обеспечение общественной безопасности. Он также показывает перспективы для дальнейшего исследования MLLMs в контексте реид

Abstract

Person re-identification (ReID) aims to retrieve the images of an interested person in the gallery images, with wide applications in medical rehabilitation, abnormal behavior detection, and public security. However, traditional person ReID models suffer from uni-modal capability, leading to poor generalization ability in multi-modal data, such as RGB, thermal, infrared, sketch images, textual descriptions, etc. Recently, the emergence of multi-modal large language models (MLLMs) shows a promising avenue for addressing this problem. Despite this potential, existing methods merely regard MLLMs as feature extractors or caption generators, which do not fully unleash their reasoning, instruction-following, and cross-modal understanding capabilities. To bridge this gap, we introduce MMReID-Bench, the first multi-task multi-modal benchmark specifically designed for person ReID. The MMReID-Bench includes 20,710 multi-modal queries and gallery images covering 10 different person ReID tasks. Comprehensive experiments demonstrate the remarkable capabilities of MLLMs in delivering effective and versatile person ReID. Nevertheless, they also have limitations in handling a few modalities, particularly thermal and infrared data. We hope MMReID-Bench can facilitate the community to develop more robust and generalizable multimodal foundation models for person ReID.

Ссылки и действия