H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers
2509.06956v1
cs.CV, cs.AI, cs.LG
2025-09-10
Авторы:
Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Shijian Lu, Nicu Sebe
Резюме на русском
#### Контекст
Видео-позиционирование тела человека в 3D является важной задачей в области компьютерного зрения, которая находит применение в различных приложениях, таких как AR/VR, безопасность и анализ поведения. Несмотря на то что трансформеры (Transformers) успешно применяются в этой области, они характеризуются высокими вычислительными затратами, что ограничивает их применение на ресурс-контрястрирующих устройствах. Это приводит к необходимости разработки эффективных алгоритмов, которые могут поддерживать высокую точность оценки позы при минимизации расходов на вычисления.
#### Метод
"Hierarchical Hourglass Tokenizer" (H$_{2}$OT) предлагает инновационную архитектуру, основанную на принципах динамического подбора и восстановления токенов. Она начинает с уменьшения количества токенов в кадрах, отфильтровывая ненужные, и заканчивает восстановлением полного порядка токенов, чтобы поддерживать высокую точность. Метод работает на двух модулях: **Token Pruning Module (TPM)**, который снимает излишние токены, и **Token Recovering Module (TRM)**, который восстанавливает детали по времени и пространству. Это гибкое решение, которое может интегрироваться в различные трансформерные модели, сочетая только необходимые токены с высокой производительностью.
#### Результаты
На трёх основных датасетах, включая Human3.6M и MPI-INF-3DHP, H$_{2}$OT продемонстрировала существенную экономию вычислительных ресурсов без потери точности. Она уменьшила количество токенов на 50-70%, при этом сохранив или даже улучшив точность в сравнении с оригинальными моделями. Эксперименты показали, что метод эффективен для различных трансформерных архитектур, включая seq2seq и seq2frame, и может адаптироваться к различным сценариям применения.
#### Значимость
Этот подход может применяться в приложениях, требующих высокой производительности, таких как реального времени слежение за движением, видеоанализ и AR/VR. Он обеспечивает более высокую производительность и энергоэффективность, что делает его привлекательным для использования на мобильных и устройствах с ограниченным вычислительным мощностью. Также, этот метод открывает пути для дальнейшего исследования в области эффективных архитектур трансформеров для видео-позиционирования тела.
#### Выводы
H$_{2}$OT показывает, что требуется не полное временное покрытие, а только представительные токены для эффективного и точного видео-позиционирования. Будущие исследования будут сконцентрированы на расширении этой модели для работы с более сложными данными, такими как сенсорные видео, и на оптимизации её взаимодействия с другими трансформерными моделями.
Abstract
Transformers have been successfully applied in the field of video-based 3D
human pose estimation. However, the high computational costs of these video
pose transformers (VPTs) make them impractical on resource-constrained devices.
In this paper, we present a hierarchical plug-and-play pruning-and-recovering
framework, called Hierarchical Hourglass Tokenizer (H$_{2}$OT), for efficient
transformer-based 3D human pose estimation from videos. H$_{2}$OT begins with
progressively pruning pose tokens of redundant frames and ends with recovering
full-length sequences, resulting in a few pose tokens in the intermediate
transformer blocks and thus improving the model efficiency. It works with two
key modules, namely, a Token Pruning Module (TPM) and a Token Recovering Module
(TRM). TPM dynamically selects a few representative tokens to eliminate the
redundancy of video frames, while TRM restores the detailed spatio-temporal
information based on the selected tokens, thereby expanding the network output
to the original full-length temporal resolution for fast inference. Our method
is general-purpose: it can be easily incorporated into common VPT models on
both seq2seq and seq2frame pipelines while effectively accommodating different
token pruning and recovery strategies. In addition, our H$_{2}$OT reveals that
maintaining the full pose sequence is unnecessary, and a few pose tokens of
representative frames can achieve both high efficiency and estimation accuracy.
Extensive experiments on multiple benchmark datasets demonstrate both the
effectiveness and efficiency of the proposed method. Code and models are
available at https://github.com/NationalGAILab/HoT.
Ссылки и действия
Дополнительные ресурсы: