CLIPVehicle: A Unified Framework for Vision-based Vehicle Search
2508.04120v1
cs.CV
2025-08-09
Авторы:
Likai Wang, Ruize Han, Xiangqun Zhang, Wei Feng
Резюме на русском
Многие существующие методы поиска автомобилей в видеоматериалах используют предварительную детекцию и хранение всех возможных объектов, затем применяют модели реидентификации, что является ресурсоемким и неэффективным. В этой работе предлагается CLIPVehicle — универсальный фреймворк, который объединяет детекцию и реидентификацию в единой модели. Работа основывается на двух ключевых модулях: двойной семантической региональной корреляции для тонкой дискриминации объектов с помощью VLMs (визуально-языковых моделей) и стратегии тренировки на основе многоуровневого учёта идентификации в терминах глобальной, экземплярной и функциональной информации. Также разработан новый бенчмарк для поиска автомобилей, включающий реальную выборку CityFlowVS и синтетические наборы SynVS-Day и SynVS-All. Исследования показали, что CLIPVehicle выдаёт лучшие результаты по сравнению с состоящими моделями в задачах реидентификации автомобилей и личности.
Abstract
Vehicles, as one of the most common and significant objects in the real
world, the researches on which using computer vision technologies have made
remarkable progress, such as vehicle detection, vehicle re-identification, etc.
To search an interested vehicle from the surveillance videos, existing methods
first pre-detect and store all vehicle patches, and then apply vehicle
re-identification models, which is resource-intensive and not very practical.
In this work, we aim to achieve the joint detection and re-identification for
vehicle search. However, the conflicting objectives between detection that
focuses on shared vehicle commonness and re-identification that focuses on
individual vehicle uniqueness make it challenging for a model to learn in an
end-to-end system. For this problem, we propose a new unified framework, namely
CLIPVehicle, which contains a dual-granularity semantic-region alignment module
to leverage the VLMs (Vision-Language Models) for vehicle discrimination
modeling, and a multi-level vehicle identification learning strategy to learn
the identity representation from global, instance and feature levels. We also
construct a new benchmark, including a real-world dataset CityFlowVS, and two
synthetic datasets SynVS-Day and SynVS-All, for vehicle search. Extensive
experimental results demonstrate that our method outperforms the
state-of-the-art methods of both vehicle Re-ID and person search tasks.
Ссылки и действия
Дополнительные ресурсы: