Motion is the Choreographer: Learning Latent Pose Dynamics for Seamless Sign Language Generation
2508.04049v1
cs.CV
2025-08-09
Авторы:
Jiayi He, Xu Wang, Shengeng Tang, Yaxiong Wang, Lechao Cheng, Dan Guo
Резюме на русском
Для генерации сигнальных языков необходимо создавать реалистичные движения с точным семантическим контролем, что приводит к двум основным проблемам: требование большого объема идентификационных данных для каждого знакомого и ограниченная гибкость в работе с новыми. Для решения этой задачи предлагается новый подход, основанный на двухфазной синтезабельной модели. В первой фазе формируется мультимодальный двигательный лексикон, где каждая "словесная часть" запоминается в виде идентификационно-независимых траекторий пикселей, жестов и 3D-изображений, требуя только одной записи на знак. Во второй фазе эти лексиконы превращаются в поток движения с помощью непрерывной синтеза, а затем визуализируются в реалистичных видеоклипах, подходящих для любого знакомого с помощью личностно-сознательного рендеринга. Этот подход выделяет движение как центральную задачу, создавая модульный "постановочный лайтер", который можно переносить между различными лицами. Испытания показали, что этот подход не только улучшает качество синтеза, но и позволяет достичь более широкого уровня гибкости в области персонализации.
Abstract
Sign language video generation requires producing natural signing motions
with realistic appearances under precise semantic control, yet faces two
critical challenges: excessive signer-specific data requirements and poor
generalization. We propose a new paradigm for sign language video generation
that decouples motion semantics from signer identity through a two-phase
synthesis framework. First, we construct a signer-independent multimodal motion
lexicon, where each gloss is stored as identity-agnostic pose, gesture, and 3D
mesh sequences, requiring only one recording per sign. This compact
representation enables our second key innovation: a discrete-to-continuous
motion synthesis stage that transforms retrieved gloss sequences into
temporally coherent motion trajectories, followed by identity-aware neural
rendering to produce photorealistic videos of arbitrary signers. Unlike prior
work constrained by signer-specific datasets, our method treats motion as a
first-class citizen: the learned latent pose dynamics serve as a portable
"choreography layer" that can be visually realized through different human
appearances. Extensive experiments demonstrate that disentangling motion from
identity is not just viable but advantageous - enabling both high-quality
synthesis and unprecedented flexibility in signer personalization.
Ссылки и действия
Дополнительные ресурсы: