WaMo: Wavelet-Enhanced Multi-Frequency Trajectory Analysis for Fine-Grained Text-Motion Retrieval
2508.03343v1
cs.CV
2025-08-09
Авторы:
Junlong Ren, Gangjian Zhang, Honghao Fu, Pengcheng Wu, Hao Wang
Резюме на русском
**Резюме**
Текстово-моторная восприятия (Text-Motion Retrieval, TMR) — задача восстановления 3D моторных последовательностей, семантически связанных с текстовыми описаниями. Однако этот вид задач представляет серьезные трудности из-за сложной структуры человеческого тела и временно-пространственных динамических характеристик его движений. Традиционные подходы часто игнорируют эти характеристики, используя универсальные методы, недостаточно точные для тонкой семантической алгнировки.
В статье предлагается WaMo — новая волновой фреймворк для многочастотного анализа движений. Он эффективно извлекает частные и временно-изменяющиеся детали мотива с помощью декомпозиции на несколько разрешений. Это достигается за счет трех основных компонент: декомпозиции сигналов мотива в частотные компоненты, восстановления исходных траекторий с помощью обучаемых преобразований и предсказания отсортированных последовательностей движений.
Проведенные эксперименты показали, что WaMo превосходит существующие методы, повысив $Rsum$ на 17.0% и 18.2% на HumanML3D и KIT-ML, соответственно. Это значительно улучшает точность восприятия текстово-моторных задач.
Abstract
Text-Motion Retrieval (TMR) aims to retrieve 3D motion sequences semantically
relevant to text descriptions. However, matching 3D motions with text remains
highly challenging, primarily due to the intricate structure of human body and
its spatial-temporal dynamics. Existing approaches often overlook these
complexities, relying on general encoding methods that fail to distinguish
different body parts and their dynamics, limiting precise semantic alignment.
To address this, we propose WaMo, a novel wavelet-based multi-frequency feature
extraction framework. It fully captures part-specific and time-varying motion
details across multiple resolutions on body joints, extracting discriminative
motion features to achieve fine-grained alignment with texts. WaMo has three
key components: (1) Trajectory Wavelet Decomposition decomposes motion signals
into frequency components that preserve both local kinematic details and global
motion semantics. (2) Trajectory Wavelet Reconstruction uses learnable inverse
wavelet transforms to reconstruct original joint trajectories from extracted
features, ensuring the preservation of essential spatial-temporal information.
(3) Disordered Motion Sequence Prediction reorders shuffled motion sequences to
improve the learning of inherent temporal coherence, enhancing motion-text
alignment. Extensive experiments demonstrate WaMo's superiority, achieving
17.0\% and 18.2\% improvements in $Rsum$ on HumanML3D and KIT-ML datasets,
respectively, outperforming existing state-of-the-art (SOTA) methods.
Ссылки и действия
Дополнительные ресурсы: