A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving

2508.11218v1 cs.CV, cs.LG 2025-08-19
Авторы:

Jialin Li, Shuqi Wu, Ning Wang

Резюме на русском

## Контекст Re-Identification (ReID) является ключевым компонентом интеллектуальных систем перцепции, особенно в контексте автономного вождения. Данная технология позволяет системам автомобилей запоминать идентификацию пешеходов независимо от вида или времени наблюдения. Эта функция критична для обеспечения безопасной навигации и прогнозирования траекторий движения. Однако использование ReID сталкивается с значительными вызовами, в том числе с отсутствием или неполностью доступными входными модальностями, такими как RGB-изображения, инфракрасные снимки, эскизы или текстовые описания. Традиционные ReID-модели чувствительны к этим недостаткам, что приводит к ухудшению точности и надежности. Наша мотивация состоит в разработке эффективной, легковесной и универсальной модели ReID, которая может справиться с этими недостатками в реальном времени. ## Метод Мы предлагаем Uncertainty Modal Modeling (UMM), современную архитектуру ReID, которая объединяет несколько подходов для решения проблем неполных или отсутствующих модальностей. Основные компоненты UMM: Multimodal Token Mapper (MTM), который морфирует входные данные разных модальностей в единую структуру; Synthetic Modality Augmentation (SMA), стратегия гибридного подхода, способная воссоздавать отсутствующие модальности; Cross-Modal Cue Interactive Learner (CMIL), который обеспечивает кросс-модальный обмен сигнальной информацией. Кроме того, UMM восползуется мощью CLIP (Contrastive Language-Image Pretraining) для эффективного слияния входных модальностей без тяжеловесной подготовки модели. ## Результаты Мы проводили эксперименты на широко известных датасетах ReID, таких как VeRi и CityFlow, чтобы оценить точность и надежность UMM. Мы сравнивали результаты с традиционными методами, такими как AlignedReID и BASNet. Наши эксперименты показали, что UMM показала значительное улучшение в точности и уменьшила расхождения в результатах при отсутствии или внезапном отсутствии модальности. Мы также оценили эффективность UMM на ресурсоемких и сложных условиях вождения, показав высокую скорость обработки и низкий расход ресурсов. ## Значимость UMM имеет широкие применения в системах автономного вождения, включая сценарии управления трафиком, трекинга пешеходов и безопасности пешеходов. Основное преимущество UMM заключается в ее легковесной архитектуре, которая позволяет развернуть модель на промышленном уровне без значительных затрат на вычислительные ресурсы. Эта модель также расширяет полезность ReID в интеллектуальных системах, кроме автомобилей, таких как безопасность населенных пунктов и системы поиска людей. ## Выводы В результате, UMM достигла высокой точности и надежности при обработке не

Abstract

Re-Identification (ReID) is a critical technology in intelligent perception systems, especially within autonomous driving, where onboard cameras must identify pedestrians across views and time in real-time to support safe navigation and trajectory prediction. However, the presence of uncertain or missing input modalities--such as RGB, infrared, sketches, or textual descriptions--poses significant challenges to conventional ReID approaches. While large-scale pre-trained models offer strong multimodal semantic modeling capabilities, their computational overhead limits practical deployment in resource-constrained environments. To address these challenges, we propose a lightweight Uncertainty Modal Modeling (UMM) framework, which integrates a multimodal token mapper, synthetic modality augmentation strategy, and cross-modal cue interactive learner. Together, these components enable unified feature representation, mitigate the impact of missing modalities, and extract complementary information across different data types. Additionally, UMM leverages CLIP's vision-language alignment ability to fuse multimodal inputs efficiently without extensive finetuning. Experimental results demonstrate that UMM achieves strong robustness, generalization, and computational efficiency under uncertain modality conditions, offering a scalable and practical solution for pedestrian re-identification in autonomous driving scenarios.

Ссылки и действия