SMooGPT: Stylized Motion Generation using Large Language Models
2509.04058v1
cs.GR, cs.CV
2025-09-06
Авторы:
Lei Zhong, Yi Yang, Changjian Li
Резюме на русском
#### Контекст
Стилизованное поведение подвижных объектов широко исследовано в области компьютерных графики, особенно благодаря прогрессу в развитии моделей шума. Основная цель данного задания заключается в создании нового типа поведения, сочетающего в себе конкретное содержание и желаемую стилистику, например, "гулять в цикле, похожим на обезьяну". Ранее выполненные исследования по этой теме ориентировались на стилизацию подвижных последовательностей, но столкнулись с рядом проблем, таких как недостаточная поддержка финер-гранулированного контроля, ограниченная общительность к новым стилям и малое разнообразие в возможных движениях (например, привычное использование только стиля "гулять"). Данная работа призвана улучшить существующие подходы, расширяя их возможности в стилизации движений и улучшая их универсальность.
#### Метод
Методология, примененная в данном исследовании, основывается на трех элементах: текстовом пространстве тела, моделировании текстового пространства подвижных последовательностей, а также использовании текстовых моделей языка (LLM) для логического анализа и подготовки данных для генерации подвижных последовательностей. Уникальность системы заключается в том, что она генерирует новый движущийся объект непосредственно из текста, что позволяет вести точный контроль над стилем и содержанием поведения. Архитектура решения включает в себя следующие шаги:
1. **Текстовая нормализация**: Логический анализ подаваемого текста, чтобы понять желаемую стилистику и содержание движения.
2. **Текстовая генерация**: Основываясь на предыдущем этапе, алгоритм генерирует текст, описывающий новый движущийся объект.
3. **Стилизация**: Затем, с помощью модели шума, текстовое описание преобразуется в графическую модель движения.
#### Результаты
В ходе экспериментов были проведены сравнения с другими существующими методами, в том числе с методами стилизации движений, генерации новых движений, а также способами объединения содержания и стиля. Использовались различные данные, включая текстовые подвижные последовательности, а также специально созданный датасет для стилизации. Результаты показали, что применение текстового пространства позволяет достичь высокой точности в генерации нового движения, особенно в случаях, когда требуется большой контроль над стилем и содержанием. Также были проведены перспективные эксперименты по обучению с учителем и без него, что дало дополнительную информацию о силе и слабых сторонах предложенного метода.
#### Значимость
Прогресс в стилизованной гене
Abstract
Stylized motion generation is actively studied in computer graphics,
especially benefiting from the rapid advances in diffusion models. The goal of
this task is to produce a novel motion respecting both the motion content and
the desired motion style, e.g., ``walking in a loop like a Monkey''. Existing
research attempts to address this problem via motion style transfer or
conditional motion generation. They typically embed the motion style into a
latent space and guide the motion implicitly in a latent space as well. Despite
the progress, their methods suffer from low interpretability and control,
limited generalization to new styles, and fail to produce motions other than
``walking'' due to the strong bias in the public stylization dataset. In this
paper, we propose to solve the stylized motion generation problem from a new
perspective of reasoning-composition-generation, based on our observations: i)
human motion can often be effectively described using natural language in a
body-part centric manner, ii) LLMs exhibit a strong ability to understand and
reason about human motion, and iii) human motion has an inherently
compositional nature, facilitating the new motion content or style generation
via effective recomposing. We thus propose utilizing body-part text space as an
intermediate representation, and present SMooGPT, a fine-tuned LLM, acting as a
reasoner, composer, and generator when generating the desired stylized motion.
Our method executes in the body-part text space with much higher
interpretability, enabling fine-grained motion control, effectively resolving
potential conflicts between motion content and style, and generalizes well to
new styles thanks to the open-vocabulary ability of LLMs. Comprehensive
experiments and evaluations, and a user perceptual study, demonstrate the
effectiveness of our approach, especially under the pure text-driven stylized
motion generation.
Ссылки и действия
Дополнительные ресурсы: