Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition
2508.03695v1
cs.CV
2025-08-09
Авторы:
Pulkit Kumar, Shuaiyi Huang, Matthew Walmer, Sai Saketh Rambhatla, Abhinav Shrivastava
Резюме на русском
Решение проблемы недостаточно эффективного моделирования движения и визуальной информации в контексте нескольких примеров изучения действий (few-shot action recognition) предлагается в статье "Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition" авторов Pulkit Kumar и соавторов. Авторы предлагают Trokens — совершенно новый подход, который преобразовывает точки движения (trajectory points) в семантически осведомленные относительные токены для распознавания действий. Решение включает два ключевых элемента: семантически ориентированную стратегию выбора точек для отслеживания, которая учитывает объектную масштабируемость и семантическую значимость, и фреймворк для моделирования движения, основанный на интра- и интер-траекторийных динамических характеристиках (например, Histogram of Oriented Displacements, HoD). Это сочетание позволяет эффективно объединять семантические и двигательные признаки для повышения точности распознавания действий. Trokens демонстрирует значительные улучшения на шести различных бенчмарках few-shot action recognition, показывая свою эффективность и глубину в моделировании движения и визуальных семантических признаков.
Abstract
Video understanding requires effective modeling of both motion and appearance
information, particularly for few-shot action recognition. While recent
advances in point tracking have been shown to improve few-shot action
recognition, two fundamental challenges persist: selecting informative points
to track and effectively modeling their motion patterns. We present Trokens, a
novel approach that transforms trajectory points into semantic-aware relational
tokens for action recognition. First, we introduce a semantic-aware sampling
strategy to adaptively distribute tracking points based on object scale and
semantic relevance. Second, we develop a motion modeling framework that
captures both intra-trajectory dynamics through the Histogram of Oriented
Displacements (HoD) and inter-trajectory relationships to model complex action
patterns. Our approach effectively combines these trajectory tokens with
semantic features to enhance appearance features with motion information,
achieving state-of-the-art performance across six diverse few-shot action
recognition benchmarks: Something-Something-V2 (both full and small splits),
Kinetics, UCF101, HMDB51, and FineGym. For project page see
https://trokens-iccv25.github.io
Ссылки и действия
Дополнительные ресурсы: