📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks

2025-08-29

Авторы:

Bikash Kumar Badatya, Vipul Baghel, Ravi Hegde

## Контекст Детектирование тонкости действий в неотрезанных видеороликах спортивного содержания представляет собой значительную сложность из-за быстрого и незначительного движения, происходящего в течение короткого промежутка времени. Традиционные методы, основанные на наблюдениях или слабо наблюдательных подходах, часто требуют больших количеств аннотированных данных и высокотехнологичных моделей, что приводит к высоким требованиям по вычислительной мощности и ограничивает применение в реальных условиях. В настоящей работе предлагается новый способ обнаружения тонкости действий в видео, основанный на последовательности костей, который позволяет извлекать динамику движения без необходимости использования меток. Этот подход может применяться в реальном времени, обеспечивая эффективность и точность для систем анализа действий в узком видео. ## Метод Метод, представленный в статье, основывается на использовании скелетон-таблицы с использованием представлений графа в пространстве времени и пространстве. Для конструирования графа в пространстве времени используется необработанный скелетный набор данных действий, который представляет собой последовательность костей в кадре. Для извлечения динамики движения не используется метка, но используется специальный алгоритм под названием ASTGCN (Attention-based Spatio-Temporal Graph Convolutional Network). Этот метод обучается на задаче подавления шума в последовательности костей, что позволяет извлекать детальную информацию о движении. Для определения точки действия во времени используется адаптивная методика, основанная на кривизне кривой, которая позволяет определять моменты начала и окончания действия с высокой точностью. ## Результаты Проведены эксперименты на популярных датасетах, таких как DSV Diving. Метод обнаружения действий показал высокую точность, достигнув максимального mean Average Precision (mAP) в 82.66% на DSV Diving. Также была измерена скорость выполнения, которая составила 29.09 мс для одного кадра. Это демонстрирует эффективность метода в реальном времени. Метод был протестирован на неизвестных данных, не имеющих обозначенных действий, и показал высокую общую точность, что демонстрирует модельную прочность и пригодность к использованию в реальных условиях. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как спортивный анализ, видеореконструкция и робототехника. Он обеспечивает высокую точность и быструю оценку действий в реальном времени, что может быть полезно для анализа действий в сложных средах. Кроме того, он позволяет избегать проблем, связанных с набором данных и методами, которые часто требуют многочисленных требований к ресурсам. Это модель очен

Annotation:

Fine-grained action localization in untrimmed sports videos presents a significant challenge due to rapid and subtle motion transitions over short durations. Existing supervised and weakly supervised solutions often rely on extensive annotated datasets and high-capacity models, making them computationally intensive and less adaptable to real-world scenarios. In this work, we introduce a lightweight and unsupervised skeleton-based action localization pipeline that leverages spatio-temporal graph ...

ID: 2508.19647v1 cs.CV, I.2.10; I.5.4

arXiv PDF