Vi-SAFE: A Spatial-Temporal Framework for Efficient Violence Detection in Public Surveillance

2509.13210v1 cs.CV, I.2.10; I.4.8 2025-09-18

Авторы:

Ligang Chang, Shengkai Xu, Liangchang Shen, Binhan Xu, Junqiao Wang, Tianyu Shi, Yanhui Du

Резюме на русском

#### Контекст Выявление насилия в публичных системах видеонаблюдения является ключевым вопросом для обеспечения общественной безопасности. Существующие системы часто сталкиваются с проблемами, такими как малоразмерные объекты, подвижные кадры, сложные фоновые элементы и необходимость высокоскоростной обработки в реальном времени. Эти ограничения становятся причиной неточности детектирования и задержки в реагировании на опасные ситуации. Таким образом, необходимо разработать более эффективный подход, который объединит локализацию объектов и анализ временных последовательностей на уровне крупных данных. #### Метод Предлагаемая модель Vi-SAFE (Violence Spatial-Temporal Framework for Efficient Violence Detection) является интегрированной системой, которая сочетает мощь модели YOLOv8 для локализации объектов с Temporal Segment Network (TSN) для анализа временных сегментов. Модель YOLOv8 использует GhostNetV3 в качестве легковесного бэкбона, свёрточный модуль с экспоненциальным движением среднего (EMA) и методы уменьшения комплексности (пруйнг). TSN, в свою очередь, выполняет бинарное классификационное разделение наводчиков навраждений. Обе модели обучаются отдельно на специальных наборах данных, что позволяет гармонично объединить локализацию и классификацию. Эта стратегия обеспечивает высокую точность и эффективность. #### Результаты Выполненные эксперименты показали, что Vi-SAFE демонстрирует заметное превосходство над существующими методами. На RWF-2000 датасете она достигла точности 0.88, что значительно превышает результаты TSN (0.77) и других конкурентных решений. Это свидетельствует о высокой эффективности Vi-SAFE в выявлении насилия и позволяет сделать вывод о том, что она является ключевым инструментом для обеспечения общественной безопасности. #### Значимость Предлагаемая модель может быть применена в различных сферах, например, в системах безопасности, мониторинге общественных мест и системах охраны. Она обеспечивает более точное и быстрое выявление насилия, что позволяет улучшить ответы на негативные события. Таким образом, Vi-SAFE не только оптимизирует текущие процессы, но и открывает новые возможности для развития общественных систем безопасности. #### Выводы Результаты исследований показали, что Vi-SAFE является эффективным инструментом для выявления насилия в публичных системах видеонаблюдения. В будущем исследования планируют сосредоточиться на улучшении моделей для выявления более сложных форм насилия, а также на увеличении скорости и эффективности обработки в реальном времени. Эти улучшения будут способствовать улучшению безопасности в общественных местах.

Abstract

Violence detection in public surveillance is critical for public safety. This study addresses challenges such as small-scale targets, complex environments, and real-time temporal analysis. We propose Vi-SAFE, a spatial-temporal framework that integrates an enhanced YOLOv8 with a Temporal Segment Network (TSN) for video surveillance. The YOLOv8 model is optimized with GhostNetV3 as a lightweight backbone, an exponential moving average (EMA) attention mechanism, and pruning to reduce computational cost while maintaining accuracy. YOLOv8 and TSN are trained separately on pedestrian and violence datasets, where YOLOv8 extracts human regions and TSN performs binary classification of violent behavior. Experiments on the RWF-2000 dataset show that Vi-SAFE achieves an accuracy of 0.88, surpassing TSN alone (0.77) and outperforming existing methods in both accuracy and efficiency, demonstrating its effectiveness for public safety surveillance. Code is available at https://anonymous.4open.science/r/Vi-SAFE-3B42/README.md.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Vi-SAFE: A Spatial-Temporal Framework for Efficient Violence Detection in Public Surveillance

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Towards a Generalizable Fusion Architecture for Multimodal Object Detection

Навигация