H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers

2509.06956v1 cs.CV, cs.AI, cs.LG 2025-09-10
Авторы:

Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Shijian Lu, Nicu Sebe

Резюме на русском

#### Контекст Видео-позиционирование тела человека в 3D является важной задачей в области компьютерного зрения, которая находит применение в различных приложениях, таких как AR/VR, безопасность и анализ поведения. Несмотря на то что трансформеры (Transformers) успешно применяются в этой области, они характеризуются высокими вычислительными затратами, что ограничивает их применение на ресурс-контрястрирующих устройствах. Это приводит к необходимости разработки эффективных алгоритмов, которые могут поддерживать высокую точность оценки позы при минимизации расходов на вычисления. #### Метод "Hierarchical Hourglass Tokenizer" (H$_{2}$OT) предлагает инновационную архитектуру, основанную на принципах динамического подбора и восстановления токенов. Она начинает с уменьшения количества токенов в кадрах, отфильтровывая ненужные, и заканчивает восстановлением полного порядка токенов, чтобы поддерживать высокую точность. Метод работает на двух модулях: **Token Pruning Module (TPM)**, который снимает излишние токены, и **Token Recovering Module (TRM)**, который восстанавливает детали по времени и пространству. Это гибкое решение, которое может интегрироваться в различные трансформерные модели, сочетая только необходимые токены с высокой производительностью. #### Результаты На трёх основных датасетах, включая Human3.6M и MPI-INF-3DHP, H$_{2}$OT продемонстрировала существенную экономию вычислительных ресурсов без потери точности. Она уменьшила количество токенов на 50-70%, при этом сохранив или даже улучшив точность в сравнении с оригинальными моделями. Эксперименты показали, что метод эффективен для различных трансформерных архитектур, включая seq2seq и seq2frame, и может адаптироваться к различным сценариям применения. #### Значимость Этот подход может применяться в приложениях, требующих высокой производительности, таких как реального времени слежение за движением, видеоанализ и AR/VR. Он обеспечивает более высокую производительность и энергоэффективность, что делает его привлекательным для использования на мобильных и устройствах с ограниченным вычислительным мощностью. Также, этот метод открывает пути для дальнейшего исследования в области эффективных архитектур трансформеров для видео-позиционирования тела. #### Выводы H$_{2}$OT показывает, что требуется не полное временное покрытие, а только представительные токены для эффективного и точного видео-позиционирования. Будущие исследования будут сконцентрированы на расширении этой модели для работы с более сложными данными, такими как сенсорные видео, и на оптимизации её взаимодействия с другими трансформерными моделями.

Abstract

Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a hierarchical plug-and-play pruning-and-recovering framework, called Hierarchical Hourglass Tokenizer (H$_{2}$OT), for efficient transformer-based 3D human pose estimation from videos. H$_{2}$OT begins with progressively pruning pose tokens of redundant frames and ends with recovering full-length sequences, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency. It works with two key modules, namely, a Token Pruning Module (TPM) and a Token Recovering Module (TRM). TPM dynamically selects a few representative tokens to eliminate the redundancy of video frames, while TRM restores the detailed spatio-temporal information based on the selected tokens, thereby expanding the network output to the original full-length temporal resolution for fast inference. Our method is general-purpose: it can be easily incorporated into common VPT models on both seq2seq and seq2frame pipelines while effectively accommodating different token pruning and recovery strategies. In addition, our H$_{2}$OT reveals that maintaining the full pose sequence is unnecessary, and a few pose tokens of representative frames can achieve both high efficiency and estimation accuracy. Extensive experiments on multiple benchmark datasets demonstrate both the effectiveness and efficiency of the proposed method. Code and models are available at https://github.com/NationalGAILab/HoT.

Ссылки и действия