TrajSV: A Trajectory-based Model for Sports Video Representations and Applications

2508.11569v1 cs.CV, cs.IR 2025-08-19
Авторы:

Zheng Wang, Shihao Xu, Wei Shi

Резюме на русском

## Контекст Область спортивных аналитики на сегодняшний день является ключевым направлением исследований как в учёной, так и в промышленной сферах. Однако в этой области существуют ряд проблем, в том числе недостаток доступных данных, отсутствие эффективных траекторий-ориентированных фреймворков и необходимость использования многочисленных супервайзед лайблов. Данные проблемы ограничивают возможности развития спортивных аналитик и снижают их точность. В данной работе предлагается модель TrajSV, которая адресует эти проблемы, обеспечивая эффективное представление траекторий видеороликов спортивных мероприятий. ## Метод TrajSV представляет собой полностью траекторий-ориентированный фреймворк, состоящий из трёх основных модулей: препроцессинга данных, сети Clip Representation Network (CRNet) и Video Representation Network (VRNet). Модуль препроцессинга извлекает траектории игроков и мяча из трансляционных видео спортивных мероприятий. CRNet, в свою очередь, использует модуль Trajectory-enhanced Transformer для извлечения клип-репрезентаций, а VRNet — для объединения этих клип-репрезентаций в единую видео-репрезентацию с помощью архитектуры encoder-decoder. Для оптимизации обучения вводится тройной контрастирующий loss, который позволяет значительно повысить качество траекторий и видео-репрезентаций, даже при отсутствии супервайзед лайблов. ## Результаты Тестирование TrajSV проводилось на трёх разных датасетах, относящихся к трём видам спорта — футболу, баскетболу и волейболу. Для сравнения использовались три важных downstream задачи: sports video retrieval, action spotting и video captioning. Результаты показали, что TrajSV превосходит существующие базовые модели, набирая почти 70% в sports video retrieval, превышая базовые модели в action spotting в 9 из 17 категорий и получая более 20% улучшения в video captioning. Эти результаты указывают на перспективность и эффективность применения TrajSV в реальных ситуациях. ## Значимость TrajSV может быть применена в различных областях, включая анализ спортивных трансляций, статистический анализ игровых действий и генерацию видео-описаний. Она обеспечивает более точное и эффективное представление траекторий, что может повысить точность других спортивных аналитических моделей. Благодаря своей траекторий-ориентированной архитектуре, TrajSV может превзойти существующие модели в трёх основных задачах, что делает её более универсальной и полезной в промышленных приложениях. ## Выводы TrajSV представляет собой прорыв в области траекторий-ориентированных моделей для представления спортивных видео. Она доказала свою эффективность на трёх различных спортивных датасетах и трёх раз

Abstract

Sports analytics has received significant attention from both academia and industry in recent years. Despite the growing interest and efforts in this field, several issues remain unresolved, including (1) data unavailability, (2) lack of an effective trajectory-based framework, and (3) requirement for sufficient supervision labels. In this paper, we present TrajSV, a trajectory-based framework that addresses various issues in existing studies. TrajSV comprises three components: data preprocessing, Clip Representation Network (CRNet), and Video Representation Network (VRNet). The data preprocessing module extracts player and ball trajectories from sports broadcast videos. CRNet utilizes a trajectory-enhanced Transformer module to learn clip representations based on these trajectories. Additionally, VRNet learns video representations by aggregating clip representations and visual features with an encoder-decoder architecture. Finally, a triple contrastive loss is introduced to optimize both video and clip representations in an unsupervised manner. The experiments are conducted on three broadcast video datasets to verify the effectiveness of TrajSV for three types of sports (i.e., soccer, basketball, and volleyball) with three downstream applications (i.e., sports video retrieval, action spotting, and video captioning). The results demonstrate that TrajSV achieves state-of-the-art performance in sports video retrieval, showcasing a nearly 70% improvement. It outperforms baselines in action spotting, achieving state-of-the-art results in 9 out of 17 action categories, and demonstrates a nearly 20% improvement in video captioning. Additionally, we introduce a deployed system along with the three applications based on TrajSV.

Ссылки и действия