Context-Aware Zero-Shot Anomaly Detection in Surveillance Using Contrastive and Predictive Spatiotemporal Modeling
2508.18463v2
cs.CV, cs.LG
2025-08-28
Авторы:
Md. Rashid Shahriar Khan, Md. Abrar Hasan, Mohammod Tareq Aziz Justice
Резюме на русском
#### Контекст
Идентификация аномалий в видеослеживании является задачей ключевой важности в области безопасности и управления трафиком. Однако, это очень сложно ввиду непредсказуемости поведения и контекстной зависимости событий. Традиционные подходы часто требуют больших объемов обучающих данных, включая примеры аномалий, что усложняет обнаружение непонятных или новых типов аномалий. Более того, традиционные методы часто не учитывают динамический контекст, что приводит к высокому количеству ложноположительных результатов. Данная работа рассматривает эти проблемы, предлагая новый контекстно-зависимый подход к обнаружению аномалий, который может обнаруживать непонятные события без необходимости использования примеров аномалий во время обучения.
#### Метод
Предлагаемая модель является гибридной и сочетает в себе несколько современных техник. Основным компонентом является TimeSformer, который используется для извлечения богатых спектров пространственно-временных признаков из видео. Для моделирования будущих представлений используется Deep Predictive Coding (DPC), которое позволяет определять временные отклонения. Для понимания семантического контекста используется CLIP (Contrastive Language-Image Pretraining), который позволяет определять аномалии на уровне понятий, используя контекстные текстовые запросы. Эти компоненты объединены в единую архитектуру, где TimeSformer извлекает пространственно-временные признаки, DPC предсказывает будущие признаки, а CLIP определяет семантические отклонения. Для оптимизации модели применяются потери InfoNCE и CPC, которые позволяют выравнивать визуальные признаки с их временными и семантическими представлениями. Кроме того, введен контекстный модуль, который регулирует предсказания с учетом локальных и глобальных контекстов.
#### Результаты
Для оценки эффективности разработанной модели проводились эксперименты на различных выборках видео, включая широко известные наборы данных для обнаружения аномалий. Удалось показать, что предлагаемый подход превосходит существующие методы по метрикам F1-score и ROC-AUC. Особое внимание уделено ситуациям, когда модель должна обнаруживать аномалии в неизвестных сценариях и контекстах. Результаты показали, что модель в состоянии обнаруживать такие аномалии с высокой точностью, даже если они не были видны во время обучения. Это свидетельствует о высокой универсальности и надежности разработанного подхода.
#### Значимость
Предлагаемый подход имеет широкие перспективы применения в различных областях, включая безопасность, мониторинг трафика, интеллектуальные системы управления. Он может использоваться для обнаружения нестандартных ситуаци
Abstract
Detecting anomalies in surveillance footage is inherently challenging due to
their unpredictable and context-dependent nature. This work introduces a novel
context-aware zero-shot anomaly detection framework that identifies abnormal
events without exposure to anomaly examples during training. The proposed
hybrid architecture combines TimeSformer, DPC, and CLIP to model spatiotemporal
dynamics and semantic context. TimeSformer serves as the vision backbone to
extract rich spatial-temporal features, while DPC forecasts future
representations to identify temporal deviations. Furthermore, a CLIP-based
semantic stream enables concept-level anomaly detection through
context-specific text prompts. These components are jointly trained using
InfoNCE and CPC losses, aligning visual inputs with their temporal and semantic
representations. A context-gating mechanism further enhances decision-making by
modulating predictions with scene-aware cues or global video features. By
integrating predictive modeling with vision-language understanding, the system
can generalize to previously unseen behaviors in complex environments. This
framework bridges the gap between temporal reasoning and semantic context in
zero-shot anomaly detection for surveillance. The code for this research has
been made available at
https://github.com/NK-II/Context-Aware-Zero-Shot-Anomaly-Detection-in-Surveillance.
Ссылки и действия
Дополнительные ресурсы: