Making Pose Representations More Expressive and Disentangled via Residual Vector Quantization

2508.14561v1 cs.CV, cs.RO 2025-08-22

Авторы:

Sukhyun Jeong, Hong-Gi Shin, Yong-Hoon Choi

Резюме на русском

## Контекст Текстовые анимации текста-to-motion (T2M) позволяют генерировать и контролировать движение тела в трехмерном пространстве на основе естественного языка. Эта область имеет значимые приложения в играх, виртуальной реальности и создании контента. Однако существуют серьезные ограничения в контролируемости и выразительности получаемых анимаций. Недостаток выразительности возникает из-за ограниченности представлений существующих моделей, которые не могут хранить все детали движения или недостаточно контролируемы, что ограничивает их применение в реальных ситуациях. ## Метод Мы предложили метод, который повышает выразительность и контролируемость анимации путем интеграции выразительных моделей с помощью **residual vector quantization (RVQ)**. Метод работает над позиционными кодами, которые уже широко используются в текстовых моделях для генерации движения. Но традиционные коды не могут охватить все мелкие детали движения, такие как высокочастотные движущиеся мелочи. Мы добавили **residual vector quantization**, который позволяет надстроить детали движения над существующими позиционными кодами, улучшая выразительность. Этот подход сохраняет все преимущества представлений позиционных кодов, сохраняя их интерпретируемость и легкость визуального модифицирования. ## Результаты Мы провели эксперименты на HumanML3D dataset, который содержит подробные данные о трехмерных движениях. Мы сравнили нашу модель с другими моделями на основе кодов позиций. Наши эксперименты показали, что наша модель повышает **Frechet Inception Distance (FID)** до значительного улучшения с 0.041 до 0.015, а также увеличивает **Top-1 R-Precision** с 0.508 до 0.510. Это означает, что наша модель предоставляет более точные и выразительные анимации. Мы также выполнили тестирование по сравнению последовательностей парных движущихся мелочей в позиционных кодах, что подтвердило контролируемость модели в редактировании движения. ## Значимость Наш подход может быть применен в широкой области виртуальных реалий, игр, анимации и других сферах, где нужно контролировать движение тела в трехмерном пространстве. Он повышает выразительность генерируемых движущихся моделей, что делает их более доступными для применения в реальных ситуациях, где точность и выразительность критичны. Мы также видим потенциал для дальнейшего исследования в области улучшения моделей текстовых анимаций, в том числе использования более высокоуровневых моделей, которые могут добавлять ещё больше контроля над движением. ## Выводы Мы представили модель, которая повышает выразительность и контролируемость позиционных кодов в текстовых моделях текста-to-motion.

Abstract

Recent progress in text-to-motion has advanced both 3D human motion generation and text-based motion control. Controllable motion generation (CoMo), which enables intuitive control, typically relies on pose code representations, but discrete pose codes alone cannot capture fine-grained motion details, limiting expressiveness. To overcome this, we propose a method that augments pose code-based latent representations with continuous motion features using residual vector quantization (RVQ). This design preserves the interpretability and manipulability of pose codes while effectively capturing subtle motion characteristics such as high-frequency details. Experiments on the HumanML3D dataset show that our model reduces Frechet inception distance (FID) from 0.041 to 0.015 and improves Top-1 R-Precision from 0.508 to 0.510. Qualitative analysis of pairwise direction similarity between pose codes further confirms the model's controllability for motion editing.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Making Pose Representations More Expressive and Disentangled via Residual Vector Quantization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация