UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks
2508.19647v1
cs.CV, I.2.10; I.5.4
2025-08-29
Авторы:
Bikash Kumar Badatya, Vipul Baghel, Ravi Hegde
Резюме на русском
## Контекст
Детектирование тонкости действий в неотрезанных видеороликах спортивного содержания представляет собой значительную сложность из-за быстрого и незначительного движения, происходящего в течение короткого промежутка времени. Традиционные методы, основанные на наблюдениях или слабо наблюдательных подходах, часто требуют больших количеств аннотированных данных и высокотехнологичных моделей, что приводит к высоким требованиям по вычислительной мощности и ограничивает применение в реальных условиях. В настоящей работе предлагается новый способ обнаружения тонкости действий в видео, основанный на последовательности костей, который позволяет извлекать динамику движения без необходимости использования меток. Этот подход может применяться в реальном времени, обеспечивая эффективность и точность для систем анализа действий в узком видео.
## Метод
Метод, представленный в статье, основывается на использовании скелетон-таблицы с использованием представлений графа в пространстве времени и пространстве. Для конструирования графа в пространстве времени используется необработанный скелетный набор данных действий, который представляет собой последовательность костей в кадре. Для извлечения динамики движения не используется метка, но используется специальный алгоритм под названием ASTGCN (Attention-based Spatio-Temporal Graph Convolutional Network). Этот метод обучается на задаче подавления шума в последовательности костей, что позволяет извлекать детальную информацию о движении. Для определения точки действия во времени используется адаптивная методика, основанная на кривизне кривой, которая позволяет определять моменты начала и окончания действия с высокой точностью.
## Результаты
Проведены эксперименты на популярных датасетах, таких как DSV Diving. Метод обнаружения действий показал высокую точность, достигнув максимального mean Average Precision (mAP) в 82.66% на DSV Diving. Также была измерена скорость выполнения, которая составила 29.09 мс для одного кадра. Это демонстрирует эффективность метода в реальном времени. Метод был протестирован на неизвестных данных, не имеющих обозначенных действий, и показал высокую общую точность, что демонстрирует модельную прочность и пригодность к использованию в реальных условиях.
## Значимость
Предлагаемый подход может быть применен в различных областях, таких как спортивный анализ, видеореконструкция и робототехника. Он обеспечивает высокую точность и быструю оценку действий в реальном времени, что может быть полезно для анализа действий в сложных средах. Кроме того, он позволяет избегать проблем, связанных с набором данных и методами, которые часто требуют многочисленных требований к ресурсам. Это модель очен
Abstract
Fine-grained action localization in untrimmed sports videos presents a
significant challenge due to rapid and subtle motion transitions over short
durations. Existing supervised and weakly supervised solutions often rely on
extensive annotated datasets and high-capacity models, making them
computationally intensive and less adaptable to real-world scenarios. In this
work, we introduce a lightweight and unsupervised skeleton-based action
localization pipeline that leverages spatio-temporal graph neural
representations. Our approach pre-trains an Attention-based Spatio-Temporal
Graph Convolutional Network (ASTGCN) on a pose-sequence denoising task with
blockwise partitions, enabling it to learn intrinsic motion dynamics without
any manual labeling. At inference, we define a novel Action Dynamics Metric
(ADM), computed directly from low-dimensional ASTGCN embeddings, which detects
motion boundaries by identifying inflection points in its curvature profile.
Our method achieves a mean Average Precision (mAP) of 82.66% and average
localization latency of 29.09 ms on the DSV Diving dataset, matching
state-of-the-art supervised performance while maintaining computational
efficiency. Furthermore, it generalizes robustly to unseen, in-the-wild diving
footage without retraining, demonstrating its practical applicability for
lightweight, real-time action analysis systems in embedded or dynamic
environments.
Ссылки и действия
Дополнительные ресурсы: