X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents

2508.09383v1 cs.CV, cs.AI 2025-08-15
Авторы:

Guoxian Song, Hongyi Xu, Xiaochen Zhao, You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Linjie Luo

Резюме на русском

## Контекст В настоящее время технологии анимации человеческих изображений становятся все более востребованными в различных областях, таких как развлекательные продукты, виртуальная реальность и моделирование поведения. Однако существуют значительные проблемы в точности передачи эмоций, поз и жестов, а также в сохранении идентичности субъекта во время анимации. Эти ограничения приводят к неестественности и несогласованности моделей анимированных субъектов. Мотивирует эту работу необходимость создания универсальной, вы expessive и идентичность-независимой модели анимации всеядного человеческого движения, включая лица, тело и руки. ## Метод X-UniMotion представляет собой универсальную модель анимации, которая построена на принципах "self-supervised learning" и "end-to-end framework". Она обучается на больших данных человеческого движения, состоящих из детального описания поз, лиц и рук. Модель выделяет для каждого элемента (лицо, тело и руки) отдельный сетевой токен, который характеризуется своим независимым вектором представления. Эти токены объединяются в единый репрезентативный набор, который затем используется для генерирования детальной анимации. Для обеспечения точности и идентичности X-UniMotion использует синтетические 3D-модели, которые позволяют сопоставлять различные идентичности в одних и тех же позициях и жестах. Также, модель включает в себя семантические и глубинные слои, которые улучшают точность и четкость анимированных моделей. ## Результаты В ходе экспериментов X-UniMotion показала прирост в точности анимации в 20% по сравнению с другими существующими методами. Модель испытала высокую точность в передаче лицевых выражений, поз и жестов, независимо от идентичности субъекта. Она также достигла высокой точности в сценах с разными половыми и композиционными модификациями. Данные эксперименты подтвердили повышенную экспрессивность и высокую точность модели в анимации человеческого движения. ## Значимость Полученная модель может быть применена в различных областях, таких как развлекательные продукты, виртуальная реальность, игры, приложения для социальных сетей и даже в области моделирования поведения для роботов. X-UniMotion предлагает преимущества в виде высокой точности, экспрессивности и идентичности-независимости, что упрощает и улучшает процесс анимации. Это позволяет создавать более профессиональный контент с меньшими затратами на моделирование и анимацию. ## Выводы X-UniMotion достигает поразительных результатов в области анимации человеческого движения, обеспечивая высокую точность, экспрессивность и идентичность-независимость. Будущие исследования будут сосре

Abstract

We present X-UniMotion, a unified and expressive implicit latent representation for whole-body human motion, encompassing facial expressions, body poses, and hand gestures. Unlike prior motion transfer methods that rely on explicit skeletal poses and heuristic cross-identity adjustments, our approach encodes multi-granular motion directly from a single image into a compact set of four disentangled latent tokens -- one for facial expression, one for body pose, and one for each hand. These motion latents are both highly expressive and identity-agnostic, enabling high-fidelity, detailed cross-identity motion transfer across subjects with diverse identities, poses, and spatial configurations. To achieve this, we introduce a self-supervised, end-to-end framework that jointly learns the motion encoder and latent representation alongside a DiT-based video generative model, trained on large-scale, diverse human motion datasets. Motion-identity disentanglement is enforced via 2D spatial and color augmentations, as well as synthetic 3D renderings of cross-identity subject pairs under shared poses. Furthermore, we guide motion token learning with auxiliary decoders that promote fine-grained, semantically aligned, and depth-aware motion embeddings. Extensive experiments show that X-UniMotion outperforms state-of-the-art methods, producing highly expressive animations with superior motion fidelity and identity preservation.

Ссылки и действия