Context-Aware Zero-Shot Anomaly Detection in Surveillance Using Contrastive and Predictive Spatiotemporal Modeling

2508.18463v2 cs.CV, cs.LG 2025-08-28
Авторы:

Md. Rashid Shahriar Khan, Md. Abrar Hasan, Mohammod Tareq Aziz Justice

Резюме на русском

#### Контекст Идентификация аномалий в видеослеживании является задачей ключевой важности в области безопасности и управления трафиком. Однако, это очень сложно ввиду непредсказуемости поведения и контекстной зависимости событий. Традиционные подходы часто требуют больших объемов обучающих данных, включая примеры аномалий, что усложняет обнаружение непонятных или новых типов аномалий. Более того, традиционные методы часто не учитывают динамический контекст, что приводит к высокому количеству ложноположительных результатов. Данная работа рассматривает эти проблемы, предлагая новый контекстно-зависимый подход к обнаружению аномалий, который может обнаруживать непонятные события без необходимости использования примеров аномалий во время обучения. #### Метод Предлагаемая модель является гибридной и сочетает в себе несколько современных техник. Основным компонентом является TimeSformer, который используется для извлечения богатых спектров пространственно-временных признаков из видео. Для моделирования будущих представлений используется Deep Predictive Coding (DPC), которое позволяет определять временные отклонения. Для понимания семантического контекста используется CLIP (Contrastive Language-Image Pretraining), который позволяет определять аномалии на уровне понятий, используя контекстные текстовые запросы. Эти компоненты объединены в единую архитектуру, где TimeSformer извлекает пространственно-временные признаки, DPC предсказывает будущие признаки, а CLIP определяет семантические отклонения. Для оптимизации модели применяются потери InfoNCE и CPC, которые позволяют выравнивать визуальные признаки с их временными и семантическими представлениями. Кроме того, введен контекстный модуль, который регулирует предсказания с учетом локальных и глобальных контекстов. #### Результаты Для оценки эффективности разработанной модели проводились эксперименты на различных выборках видео, включая широко известные наборы данных для обнаружения аномалий. Удалось показать, что предлагаемый подход превосходит существующие методы по метрикам F1-score и ROC-AUC. Особое внимание уделено ситуациям, когда модель должна обнаруживать аномалии в неизвестных сценариях и контекстах. Результаты показали, что модель в состоянии обнаруживать такие аномалии с высокой точностью, даже если они не были видны во время обучения. Это свидетельствует о высокой универсальности и надежности разработанного подхода. #### Значимость Предлагаемый подход имеет широкие перспективы применения в различных областях, включая безопасность, мониторинг трафика, интеллектуальные системы управления. Он может использоваться для обнаружения нестандартных ситуаци

Abstract

Detecting anomalies in surveillance footage is inherently challenging due to their unpredictable and context-dependent nature. This work introduces a novel context-aware zero-shot anomaly detection framework that identifies abnormal events without exposure to anomaly examples during training. The proposed hybrid architecture combines TimeSformer, DPC, and CLIP to model spatiotemporal dynamics and semantic context. TimeSformer serves as the vision backbone to extract rich spatial-temporal features, while DPC forecasts future representations to identify temporal deviations. Furthermore, a CLIP-based semantic stream enables concept-level anomaly detection through context-specific text prompts. These components are jointly trained using InfoNCE and CPC losses, aligning visual inputs with their temporal and semantic representations. A context-gating mechanism further enhances decision-making by modulating predictions with scene-aware cues or global video features. By integrating predictive modeling with vision-language understanding, the system can generalize to previously unseen behaviors in complex environments. This framework bridges the gap between temporal reasoning and semantic context in zero-shot anomaly detection for surveillance. The code for this research has been made available at https://github.com/NK-II/Context-Aware-Zero-Shot-Anomaly-Detection-in-Surveillance.

Ссылки и действия