UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks

2508.19647v1 cs.CV, I.2.10; I.5.4 2025-08-29
Авторы:

Bikash Kumar Badatya, Vipul Baghel, Ravi Hegde

Резюме на русском

## Контекст Детектирование тонкости действий в неотрезанных видеороликах спортивного содержания представляет собой значительную сложность из-за быстрого и незначительного движения, происходящего в течение короткого промежутка времени. Традиционные методы, основанные на наблюдениях или слабо наблюдательных подходах, часто требуют больших количеств аннотированных данных и высокотехнологичных моделей, что приводит к высоким требованиям по вычислительной мощности и ограничивает применение в реальных условиях. В настоящей работе предлагается новый способ обнаружения тонкости действий в видео, основанный на последовательности костей, который позволяет извлекать динамику движения без необходимости использования меток. Этот подход может применяться в реальном времени, обеспечивая эффективность и точность для систем анализа действий в узком видео. ## Метод Метод, представленный в статье, основывается на использовании скелетон-таблицы с использованием представлений графа в пространстве времени и пространстве. Для конструирования графа в пространстве времени используется необработанный скелетный набор данных действий, который представляет собой последовательность костей в кадре. Для извлечения динамики движения не используется метка, но используется специальный алгоритм под названием ASTGCN (Attention-based Spatio-Temporal Graph Convolutional Network). Этот метод обучается на задаче подавления шума в последовательности костей, что позволяет извлекать детальную информацию о движении. Для определения точки действия во времени используется адаптивная методика, основанная на кривизне кривой, которая позволяет определять моменты начала и окончания действия с высокой точностью. ## Результаты Проведены эксперименты на популярных датасетах, таких как DSV Diving. Метод обнаружения действий показал высокую точность, достигнув максимального mean Average Precision (mAP) в 82.66% на DSV Diving. Также была измерена скорость выполнения, которая составила 29.09 мс для одного кадра. Это демонстрирует эффективность метода в реальном времени. Метод был протестирован на неизвестных данных, не имеющих обозначенных действий, и показал высокую общую точность, что демонстрирует модельную прочность и пригодность к использованию в реальных условиях. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как спортивный анализ, видеореконструкция и робототехника. Он обеспечивает высокую точность и быструю оценку действий в реальном времени, что может быть полезно для анализа действий в сложных средах. Кроме того, он позволяет избегать проблем, связанных с набором данных и методами, которые часто требуют многочисленных требований к ресурсам. Это модель очен

Abstract

Fine-grained action localization in untrimmed sports videos presents a significant challenge due to rapid and subtle motion transitions over short durations. Existing supervised and weakly supervised solutions often rely on extensive annotated datasets and high-capacity models, making them computationally intensive and less adaptable to real-world scenarios. In this work, we introduce a lightweight and unsupervised skeleton-based action localization pipeline that leverages spatio-temporal graph neural representations. Our approach pre-trains an Attention-based Spatio-Temporal Graph Convolutional Network (ASTGCN) on a pose-sequence denoising task with blockwise partitions, enabling it to learn intrinsic motion dynamics without any manual labeling. At inference, we define a novel Action Dynamics Metric (ADM), computed directly from low-dimensional ASTGCN embeddings, which detects motion boundaries by identifying inflection points in its curvature profile. Our method achieves a mean Average Precision (mAP) of 82.66% and average localization latency of 29.09 ms on the DSV Diving dataset, matching state-of-the-art supervised performance while maintaining computational efficiency. Furthermore, it generalizes robustly to unseen, in-the-wild diving footage without retraining, demonstrating its practical applicability for lightweight, real-time action analysis systems in embedded or dynamic environments.

Ссылки и действия