Making Pose Representations More Expressive and Disentangled via Residual Vector Quantization
2508.14561v1
cs.CV, cs.RO
2025-08-22
Авторы:
Sukhyun Jeong, Hong-Gi Shin, Yong-Hoon Choi
Резюме на русском
## Контекст
Текстовые анимации текста-to-motion (T2M) позволяют генерировать и контролировать движение тела в трехмерном пространстве на основе естественного языка. Эта область имеет значимые приложения в играх, виртуальной реальности и создании контента. Однако существуют серьезные ограничения в контролируемости и выразительности получаемых анимаций. Недостаток выразительности возникает из-за ограниченности представлений существующих моделей, которые не могут хранить все детали движения или недостаточно контролируемы, что ограничивает их применение в реальных ситуациях.
## Метод
Мы предложили метод, который повышает выразительность и контролируемость анимации путем интеграции выразительных моделей с помощью **residual vector quantization (RVQ)**. Метод работает над позиционными кодами, которые уже широко используются в текстовых моделях для генерации движения. Но традиционные коды не могут охватить все мелкие детали движения, такие как высокочастотные движущиеся мелочи. Мы добавили **residual vector quantization**, который позволяет надстроить детали движения над существующими позиционными кодами, улучшая выразительность. Этот подход сохраняет все преимущества представлений позиционных кодов, сохраняя их интерпретируемость и легкость визуального модифицирования.
## Результаты
Мы провели эксперименты на HumanML3D dataset, который содержит подробные данные о трехмерных движениях. Мы сравнили нашу модель с другими моделями на основе кодов позиций. Наши эксперименты показали, что наша модель повышает **Frechet Inception Distance (FID)** до значительного улучшения с 0.041 до 0.015, а также увеличивает **Top-1 R-Precision** с 0.508 до 0.510. Это означает, что наша модель предоставляет более точные и выразительные анимации. Мы также выполнили тестирование по сравнению последовательностей парных движущихся мелочей в позиционных кодах, что подтвердило контролируемость модели в редактировании движения.
## Значимость
Наш подход может быть применен в широкой области виртуальных реалий, игр, анимации и других сферах, где нужно контролировать движение тела в трехмерном пространстве. Он повышает выразительность генерируемых движущихся моделей, что делает их более доступными для применения в реальных ситуациях, где точность и выразительность критичны. Мы также видим потенциал для дальнейшего исследования в области улучшения моделей текстовых анимаций, в том числе использования более высокоуровневых моделей, которые могут добавлять ещё больше контроля над движением.
## Выводы
Мы представили модель, которая повышает выразительность и контролируемость позиционных кодов в текстовых моделях текста-to-motion.
Abstract
Recent progress in text-to-motion has advanced both 3D human motion
generation and text-based motion control. Controllable motion generation
(CoMo), which enables intuitive control, typically relies on pose code
representations, but discrete pose codes alone cannot capture fine-grained
motion details, limiting expressiveness. To overcome this, we propose a method
that augments pose code-based latent representations with continuous motion
features using residual vector quantization (RVQ). This design preserves the
interpretability and manipulability of pose codes while effectively capturing
subtle motion characteristics such as high-frequency details. Experiments on
the HumanML3D dataset show that our model reduces Frechet inception distance
(FID) from 0.041 to 0.015 and improves Top-1 R-Precision from 0.508 to 0.510.
Qualitative analysis of pairwise direction similarity between pose codes
further confirms the model's controllability for motion editing.
Ссылки и действия
Дополнительные ресурсы: