Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection

2508.06318v1 cs.CV, cs.AI 2025-08-12
Авторы:

Giacomo D'Amicantonio, Snehashis Majhi, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, François Bremond, Egor Bondarev

Резюме на русском

## Контекст Video Anomaly Detection (VAD) является сложной задачей, так как аномальные события отличаются видоизменяющимися природой и небольшим количеством отмеченных данных. Особенно вызов является Weakly-Supervised VAD (WSVAD), где во время обучения доступны только видео-уровневые метки, но анализ производится на уровне кадров. Несмотря на то, что современные модели справляются с простыми аномалиями (например, взрывами), они сталкиваются с трудностями при работе с реальностью, такими как кража в магазине. Это обусловлено двумя основными проблемами: (1) невозможностью моделей учитывать разнообразие типов аномалий, так как они обрабатывают все категории общим подходом, не отделяя категорийские особенности; и (2) слабую сигнализацию, которая не имеет точной информации о времени, что ограничивает возможность ловкого отслеживания аномалий, смешанных с нормальными событиями. ## Метод Мы предлагаем Gaussian Splatting-guided Mixture of Experts (GS-MoE) — новую модель, которая значительно улучшает детекцию аномалий. GS-MoE состоит из нескольких экспертных моделей, каждая из который специализируется на определенном типе аномалий. Эти эксперты направляются с помощью нового терминального потери Гаусса (Gaussian Splatting Loss), который позволяет модели учитывать временную согласованность и улучшить слабую сигнализацию. Область Гаусса используется для концентрации внимания на временных отрезках, которые скорее всего содержат аномальные события. Таким образом, модель может определять характеристики аномалий более точно. Затем эти специализированные эксперты объединяются с помощью механизма смеси экспертов, который моделирует сложные отношения между разными типами аномалий. Эта архитектура позволяет нашей модели решить проблемы ранее недостаточно затронутых технологиями. ## Результаты Мы проводили эксперименты на UCF-Crime, XD-Violence и MSAD датасетах, а также сравнили полученные результаты с состоянием технологии. На UCF-Crime, наша модель достигла 91.58% AUC, превосходя существующие решения. Также, на XD-Violence и MSAD, наша модель показала значительные улучшения по сравнению с предыдущими моделями. Эти результаты указывают на то, что GS-MoE эффективно детектирует аномалии, даже в сложных реальных условиях. ## Значимость Наша модель может применяться в различных областях, таких как безопасность, мониторинг видеокамер и анализ данных в реальном времени. Основное преимущество GS-MoE заключается в её способности обрабатывать разнообразные типы аномалий, что делает её применимую в широком круге задач. Благодаря использованию Гаусса для гидродинамического представления, модель может предлагать б

Abstract

Video Anomaly Detection (VAD) is a challenging task due to the variability of anomalous events and the limited availability of labeled data. Under the Weakly-Supervised VAD (WSVAD) paradigm, only video-level labels are provided during training, while predictions are made at the frame level. Although state-of-the-art models perform well on simple anomalies (e.g., explosions), they struggle with complex real-world events (e.g., shoplifting). This difficulty stems from two key issues: (1) the inability of current models to address the diversity of anomaly types, as they process all categories with a shared model, overlooking category-specific features; and (2) the weak supervision signal, which lacks precise temporal information, limiting the ability to capture nuanced anomalous patterns blended with normal events. To address these challenges, we propose Gaussian Splatting-guided Mixture of Experts (GS-MoE), a novel framework that employs a set of expert models, each specialized in capturing specific anomaly types. These experts are guided by a temporal Gaussian splatting loss, enabling the model to leverage temporal consistency and enhance weak supervision. The Gaussian splatting approach encourages a more precise and comprehensive representation of anomalies by focusing on temporal segments most likely to contain abnormal events. The predictions from these specialized experts are integrated through a mixture-of-experts mechanism to model complex relationships across diverse anomaly patterns. Our approach achieves state-of-the-art performance, with a 91.58% AUC on the UCF-Crime dataset, and demonstrates superior results on XD-Violence and MSAD datasets. By leveraging category-specific expertise and temporal guidance, GS-MoE sets a new benchmark for VAD under weak supervision.

Ссылки и действия