X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents
2508.09383v1
cs.CV, cs.AI
2025-08-15
Авторы:
Guoxian Song, Hongyi Xu, Xiaochen Zhao, You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Linjie Luo
Резюме на русском
## Контекст
В настоящее время технологии анимации человеческих изображений становятся все более востребованными в различных областях, таких как развлекательные продукты, виртуальная реальность и моделирование поведения. Однако существуют значительные проблемы в точности передачи эмоций, поз и жестов, а также в сохранении идентичности субъекта во время анимации. Эти ограничения приводят к неестественности и несогласованности моделей анимированных субъектов. Мотивирует эту работу необходимость создания универсальной, вы expessive и идентичность-независимой модели анимации всеядного человеческого движения, включая лица, тело и руки.
## Метод
X-UniMotion представляет собой универсальную модель анимации, которая построена на принципах "self-supervised learning" и "end-to-end framework". Она обучается на больших данных человеческого движения, состоящих из детального описания поз, лиц и рук. Модель выделяет для каждого элемента (лицо, тело и руки) отдельный сетевой токен, который характеризуется своим независимым вектором представления. Эти токены объединяются в единый репрезентативный набор, который затем используется для генерирования детальной анимации. Для обеспечения точности и идентичности X-UniMotion использует синтетические 3D-модели, которые позволяют сопоставлять различные идентичности в одних и тех же позициях и жестах. Также, модель включает в себя семантические и глубинные слои, которые улучшают точность и четкость анимированных моделей.
## Результаты
В ходе экспериментов X-UniMotion показала прирост в точности анимации в 20% по сравнению с другими существующими методами. Модель испытала высокую точность в передаче лицевых выражений, поз и жестов, независимо от идентичности субъекта. Она также достигла высокой точности в сценах с разными половыми и композиционными модификациями. Данные эксперименты подтвердили повышенную экспрессивность и высокую точность модели в анимации человеческого движения.
## Значимость
Полученная модель может быть применена в различных областях, таких как развлекательные продукты, виртуальная реальность, игры, приложения для социальных сетей и даже в области моделирования поведения для роботов. X-UniMotion предлагает преимущества в виде высокой точности, экспрессивности и идентичности-независимости, что упрощает и улучшает процесс анимации. Это позволяет создавать более профессиональный контент с меньшими затратами на моделирование и анимацию.
## Выводы
X-UniMotion достигает поразительных результатов в области анимации человеческого движения, обеспечивая высокую точность, экспрессивность и идентичность-независимость. Будущие исследования будут сосре
Abstract
We present X-UniMotion, a unified and expressive implicit latent
representation for whole-body human motion, encompassing facial expressions,
body poses, and hand gestures. Unlike prior motion transfer methods that rely
on explicit skeletal poses and heuristic cross-identity adjustments, our
approach encodes multi-granular motion directly from a single image into a
compact set of four disentangled latent tokens -- one for facial expression,
one for body pose, and one for each hand. These motion latents are both highly
expressive and identity-agnostic, enabling high-fidelity, detailed
cross-identity motion transfer across subjects with diverse identities, poses,
and spatial configurations. To achieve this, we introduce a self-supervised,
end-to-end framework that jointly learns the motion encoder and latent
representation alongside a DiT-based video generative model, trained on
large-scale, diverse human motion datasets. Motion-identity disentanglement is
enforced via 2D spatial and color augmentations, as well as synthetic 3D
renderings of cross-identity subject pairs under shared poses. Furthermore, we
guide motion token learning with auxiliary decoders that promote fine-grained,
semantically aligned, and depth-aware motion embeddings. Extensive experiments
show that X-UniMotion outperforms state-of-the-art methods, producing highly
expressive animations with superior motion fidelity and identity preservation.
Ссылки и действия
Дополнительные ресурсы: