X-MoGen: Unified Motion Generation across Humans and Animals
2508.05162v1
cs.CV
2025-08-09
Авторы:
Xuan Wang, Kai Ruan, Liyang Qian, Zhizhi Guo, Chang Su, Gaoang Wang
Резюме на русском
Межвидовая моделирование движения (X-MoGen) — первый метод, объединяющий моделирование движения для людей и животных. Он адресует проблему различий в скелетных структурах, которые скажутся на реализме полученных последовательностей движения. Решением стало два этапа архитектуры: в первой фазе используется условный граф ВАЭ для установления вариаций положения в T-pose, а также автокодировщик, кодирующий движение в общий латентный пространственный вариант, замкнутый на морфологическом потере. Во второй фазе, модель выполняет отклонение моделирования масок для генерации эмбеддингов движения на основе текстовых описаний. Чтобы поддерживать морфологическую согласованность, введен модуль многовидовой совместимости. Богатые эксперименты на UniMo4D — расширенном датасете, включающим 115 видов и 119 тысяч последовательностей движения — показали, что X-MoGen превосходит состояние технологий на межвидовых текстово-двигательных задачах, при этом обеспечивая высокий реализм и универсальность.
Abstract
Text-driven motion generation has attracted increasing attention due to its
broad applications in virtual reality, animation, and robotics. While existing
methods typically model human and animal motion separately, a joint
cross-species approach offers key advantages, such as a unified representation
and improved generalization. However, morphological differences across species
remain a key challenge, often compromising motion plausibility. To address
this, we propose \textbf{X-MoGen}, the first unified framework for
cross-species text-driven motion generation covering both humans and animals.
X-MoGen adopts a two-stage architecture. First, a conditional graph variational
autoencoder learns canonical T-pose priors, while an autoencoder encodes motion
into a shared latent space regularized by morphological loss. In the second
stage, we perform masked motion modeling to generate motion embeddings
conditioned on textual descriptions. During training, a morphological
consistency module is employed to promote skeletal plausibility across species.
To support unified modeling, we construct \textbf{UniMo4D}, a large-scale
dataset of 115 species and 119k motion sequences, which integrates human and
animal motions under a shared skeletal topology for joint training. Extensive
experiments on UniMo4D demonstrate that X-MoGen outperforms state-of-the-art
methods on both seen and unseen species.
Ссылки и действия
Дополнительные ресурсы: