A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving
2508.11218v1
cs.CV, cs.LG
2025-08-19
Авторы:
Jialin Li, Shuqi Wu, Ning Wang
Резюме на русском
## Контекст
Re-Identification (ReID) является ключевым компонентом интеллектуальных систем перцепции, особенно в контексте автономного вождения. Данная технология позволяет системам автомобилей запоминать идентификацию пешеходов независимо от вида или времени наблюдения. Эта функция критична для обеспечения безопасной навигации и прогнозирования траекторий движения. Однако использование ReID сталкивается с значительными вызовами, в том числе с отсутствием или неполностью доступными входными модальностями, такими как RGB-изображения, инфракрасные снимки, эскизы или текстовые описания. Традиционные ReID-модели чувствительны к этим недостаткам, что приводит к ухудшению точности и надежности. Наша мотивация состоит в разработке эффективной, легковесной и универсальной модели ReID, которая может справиться с этими недостатками в реальном времени.
## Метод
Мы предлагаем Uncertainty Modal Modeling (UMM), современную архитектуру ReID, которая объединяет несколько подходов для решения проблем неполных или отсутствующих модальностей. Основные компоненты UMM: Multimodal Token Mapper (MTM), который морфирует входные данные разных модальностей в единую структуру; Synthetic Modality Augmentation (SMA), стратегия гибридного подхода, способная воссоздавать отсутствующие модальности; Cross-Modal Cue Interactive Learner (CMIL), который обеспечивает кросс-модальный обмен сигнальной информацией. Кроме того, UMM восползуется мощью CLIP (Contrastive Language-Image Pretraining) для эффективного слияния входных модальностей без тяжеловесной подготовки модели.
## Результаты
Мы проводили эксперименты на широко известных датасетах ReID, таких как VeRi и CityFlow, чтобы оценить точность и надежность UMM. Мы сравнивали результаты с традиционными методами, такими как AlignedReID и BASNet. Наши эксперименты показали, что UMM показала значительное улучшение в точности и уменьшила расхождения в результатах при отсутствии или внезапном отсутствии модальности. Мы также оценили эффективность UMM на ресурсоемких и сложных условиях вождения, показав высокую скорость обработки и низкий расход ресурсов.
## Значимость
UMM имеет широкие применения в системах автономного вождения, включая сценарии управления трафиком, трекинга пешеходов и безопасности пешеходов. Основное преимущество UMM заключается в ее легковесной архитектуре, которая позволяет развернуть модель на промышленном уровне без значительных затрат на вычислительные ресурсы. Эта модель также расширяет полезность ReID в интеллектуальных системах, кроме автомобилей, таких как безопасность населенных пунктов и системы поиска людей.
## Выводы
В результате, UMM достигла высокой точности и надежности при обработке не
Abstract
Re-Identification (ReID) is a critical technology in intelligent perception
systems, especially within autonomous driving, where onboard cameras must
identify pedestrians across views and time in real-time to support safe
navigation and trajectory prediction. However, the presence of uncertain or
missing input modalities--such as RGB, infrared, sketches, or textual
descriptions--poses significant challenges to conventional ReID approaches.
While large-scale pre-trained models offer strong multimodal semantic modeling
capabilities, their computational overhead limits practical deployment in
resource-constrained environments. To address these challenges, we propose a
lightweight Uncertainty Modal Modeling (UMM) framework, which integrates a
multimodal token mapper, synthetic modality augmentation strategy, and
cross-modal cue interactive learner. Together, these components enable unified
feature representation, mitigate the impact of missing modalities, and extract
complementary information across different data types. Additionally, UMM
leverages CLIP's vision-language alignment ability to fuse multimodal inputs
efficiently without extensive finetuning. Experimental results demonstrate that
UMM achieves strong robustness, generalization, and computational efficiency
under uncertain modality conditions, offering a scalable and practical solution
for pedestrian re-identification in autonomous driving scenarios.
Ссылки и действия
Дополнительные ресурсы: