Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection
2508.06318v1
cs.CV, cs.AI
2025-08-12
Авторы:
Giacomo D'Amicantonio, Snehashis Majhi, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, François Bremond, Egor Bondarev
Резюме на русском
## Контекст
Video Anomaly Detection (VAD) является сложной задачей, так как аномальные события отличаются видоизменяющимися природой и небольшим количеством отмеченных данных. Особенно вызов является Weakly-Supervised VAD (WSVAD), где во время обучения доступны только видео-уровневые метки, но анализ производится на уровне кадров. Несмотря на то, что современные модели справляются с простыми аномалиями (например, взрывами), они сталкиваются с трудностями при работе с реальностью, такими как кража в магазине. Это обусловлено двумя основными проблемами: (1) невозможностью моделей учитывать разнообразие типов аномалий, так как они обрабатывают все категории общим подходом, не отделяя категорийские особенности; и (2) слабую сигнализацию, которая не имеет точной информации о времени, что ограничивает возможность ловкого отслеживания аномалий, смешанных с нормальными событиями.
## Метод
Мы предлагаем Gaussian Splatting-guided Mixture of Experts (GS-MoE) — новую модель, которая значительно улучшает детекцию аномалий. GS-MoE состоит из нескольких экспертных моделей, каждая из который специализируется на определенном типе аномалий. Эти эксперты направляются с помощью нового терминального потери Гаусса (Gaussian Splatting Loss), который позволяет модели учитывать временную согласованность и улучшить слабую сигнализацию. Область Гаусса используется для концентрации внимания на временных отрезках, которые скорее всего содержат аномальные события. Таким образом, модель может определять характеристики аномалий более точно. Затем эти специализированные эксперты объединяются с помощью механизма смеси экспертов, который моделирует сложные отношения между разными типами аномалий. Эта архитектура позволяет нашей модели решить проблемы ранее недостаточно затронутых технологиями.
## Результаты
Мы проводили эксперименты на UCF-Crime, XD-Violence и MSAD датасетах, а также сравнили полученные результаты с состоянием технологии. На UCF-Crime, наша модель достигла 91.58% AUC, превосходя существующие решения. Также, на XD-Violence и MSAD, наша модель показала значительные улучшения по сравнению с предыдущими моделями. Эти результаты указывают на то, что GS-MoE эффективно детектирует аномалии, даже в сложных реальных условиях.
## Значимость
Наша модель может применяться в различных областях, таких как безопасность, мониторинг видеокамер и анализ данных в реальном времени. Основное преимущество GS-MoE заключается в её способности обрабатывать разнообразные типы аномалий, что делает её применимую в широком круге задач. Благодаря использованию Гаусса для гидродинамического представления, модель может предлагать б
Abstract
Video Anomaly Detection (VAD) is a challenging task due to the variability of
anomalous events and the limited availability of labeled data. Under the
Weakly-Supervised VAD (WSVAD) paradigm, only video-level labels are provided
during training, while predictions are made at the frame level. Although
state-of-the-art models perform well on simple anomalies (e.g., explosions),
they struggle with complex real-world events (e.g., shoplifting). This
difficulty stems from two key issues: (1) the inability of current models to
address the diversity of anomaly types, as they process all categories with a
shared model, overlooking category-specific features; and (2) the weak
supervision signal, which lacks precise temporal information, limiting the
ability to capture nuanced anomalous patterns blended with normal events. To
address these challenges, we propose Gaussian Splatting-guided Mixture of
Experts (GS-MoE), a novel framework that employs a set of expert models, each
specialized in capturing specific anomaly types. These experts are guided by a
temporal Gaussian splatting loss, enabling the model to leverage temporal
consistency and enhance weak supervision. The Gaussian splatting approach
encourages a more precise and comprehensive representation of anomalies by
focusing on temporal segments most likely to contain abnormal events. The
predictions from these specialized experts are integrated through a
mixture-of-experts mechanism to model complex relationships across diverse
anomaly patterns. Our approach achieves state-of-the-art performance, with a
91.58% AUC on the UCF-Crime dataset, and demonstrates superior results on
XD-Violence and MSAD datasets. By leveraging category-specific expertise and
temporal guidance, GS-MoE sets a new benchmark for VAD under weak supervision.
Ссылки и действия
Дополнительные ресурсы: