TrajSV: A Trajectory-based Model for Sports Video Representations and Applications
2508.11569v1
cs.CV, cs.IR
2025-08-19
Авторы:
Zheng Wang, Shihao Xu, Wei Shi
Резюме на русском
## Контекст
Область спортивных аналитики на сегодняшний день является ключевым направлением исследований как в учёной, так и в промышленной сферах. Однако в этой области существуют ряд проблем, в том числе недостаток доступных данных, отсутствие эффективных траекторий-ориентированных фреймворков и необходимость использования многочисленных супервайзед лайблов. Данные проблемы ограничивают возможности развития спортивных аналитик и снижают их точность. В данной работе предлагается модель TrajSV, которая адресует эти проблемы, обеспечивая эффективное представление траекторий видеороликов спортивных мероприятий.
## Метод
TrajSV представляет собой полностью траекторий-ориентированный фреймворк, состоящий из трёх основных модулей: препроцессинга данных, сети Clip Representation Network (CRNet) и Video Representation Network (VRNet). Модуль препроцессинга извлекает траектории игроков и мяча из трансляционных видео спортивных мероприятий. CRNet, в свою очередь, использует модуль Trajectory-enhanced Transformer для извлечения клип-репрезентаций, а VRNet — для объединения этих клип-репрезентаций в единую видео-репрезентацию с помощью архитектуры encoder-decoder. Для оптимизации обучения вводится тройной контрастирующий loss, который позволяет значительно повысить качество траекторий и видео-репрезентаций, даже при отсутствии супервайзед лайблов.
## Результаты
Тестирование TrajSV проводилось на трёх разных датасетах, относящихся к трём видам спорта — футболу, баскетболу и волейболу. Для сравнения использовались три важных downstream задачи: sports video retrieval, action spotting и video captioning. Результаты показали, что TrajSV превосходит существующие базовые модели, набирая почти 70% в sports video retrieval, превышая базовые модели в action spotting в 9 из 17 категорий и получая более 20% улучшения в video captioning. Эти результаты указывают на перспективность и эффективность применения TrajSV в реальных ситуациях.
## Значимость
TrajSV может быть применена в различных областях, включая анализ спортивных трансляций, статистический анализ игровых действий и генерацию видео-описаний. Она обеспечивает более точное и эффективное представление траекторий, что может повысить точность других спортивных аналитических моделей. Благодаря своей траекторий-ориентированной архитектуре, TrajSV может превзойти существующие модели в трёх основных задачах, что делает её более универсальной и полезной в промышленных приложениях.
## Выводы
TrajSV представляет собой прорыв в области траекторий-ориентированных моделей для представления спортивных видео. Она доказала свою эффективность на трёх различных спортивных датасетах и трёх раз
Abstract
Sports analytics has received significant attention from both academia and
industry in recent years. Despite the growing interest and efforts in this
field, several issues remain unresolved, including (1) data unavailability, (2)
lack of an effective trajectory-based framework, and (3) requirement for
sufficient supervision labels. In this paper, we present TrajSV, a
trajectory-based framework that addresses various issues in existing studies.
TrajSV comprises three components: data preprocessing, Clip Representation
Network (CRNet), and Video Representation Network (VRNet). The data
preprocessing module extracts player and ball trajectories from sports
broadcast videos. CRNet utilizes a trajectory-enhanced Transformer module to
learn clip representations based on these trajectories. Additionally, VRNet
learns video representations by aggregating clip representations and visual
features with an encoder-decoder architecture. Finally, a triple contrastive
loss is introduced to optimize both video and clip representations in an
unsupervised manner. The experiments are conducted on three broadcast video
datasets to verify the effectiveness of TrajSV for three types of sports (i.e.,
soccer, basketball, and volleyball) with three downstream applications (i.e.,
sports video retrieval, action spotting, and video captioning). The results
demonstrate that TrajSV achieves state-of-the-art performance in sports video
retrieval, showcasing a nearly 70% improvement. It outperforms baselines in
action spotting, achieving state-of-the-art results in 9 out of 17 action
categories, and demonstrates a nearly 20% improvement in video captioning.
Additionally, we introduce a deployed system along with the three applications
based on TrajSV.
Ссылки и действия
Дополнительные ресурсы: