CLIPVehicle: A Unified Framework for Vision-based Vehicle Search

2508.04120v1 cs.CV 2025-08-09
Авторы:

Likai Wang, Ruize Han, Xiangqun Zhang, Wei Feng

Резюме на русском

Многие существующие методы поиска автомобилей в видеоматериалах используют предварительную детекцию и хранение всех возможных объектов, затем применяют модели реидентификации, что является ресурсоемким и неэффективным. В этой работе предлагается CLIPVehicle — универсальный фреймворк, который объединяет детекцию и реидентификацию в единой модели. Работа основывается на двух ключевых модулях: двойной семантической региональной корреляции для тонкой дискриминации объектов с помощью VLMs (визуально-языковых моделей) и стратегии тренировки на основе многоуровневого учёта идентификации в терминах глобальной, экземплярной и функциональной информации. Также разработан новый бенчмарк для поиска автомобилей, включающий реальную выборку CityFlowVS и синтетические наборы SynVS-Day и SynVS-All. Исследования показали, что CLIPVehicle выдаёт лучшие результаты по сравнению с состоящими моделями в задачах реидентификации автомобилей и личности.

Abstract

Vehicles, as one of the most common and significant objects in the real world, the researches on which using computer vision technologies have made remarkable progress, such as vehicle detection, vehicle re-identification, etc. To search an interested vehicle from the surveillance videos, existing methods first pre-detect and store all vehicle patches, and then apply vehicle re-identification models, which is resource-intensive and not very practical. In this work, we aim to achieve the joint detection and re-identification for vehicle search. However, the conflicting objectives between detection that focuses on shared vehicle commonness and re-identification that focuses on individual vehicle uniqueness make it challenging for a model to learn in an end-to-end system. For this problem, we propose a new unified framework, namely CLIPVehicle, which contains a dual-granularity semantic-region alignment module to leverage the VLMs (Vision-Language Models) for vehicle discrimination modeling, and a multi-level vehicle identification learning strategy to learn the identity representation from global, instance and feature levels. We also construct a new benchmark, including a real-world dataset CityFlowVS, and two synthetic datasets SynVS-Day and SynVS-All, for vehicle search. Extensive experimental results demonstrate that our method outperforms the state-of-the-art methods of both vehicle Re-ID and person search tasks.

Ссылки и действия