DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions

2508.17342v1 cs.GR, cs.CV, cs.MM, cs.SD 2025-08-27
Авторы:

Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han

Резюме на русском

## Контекст Генерация согласованных и разнообразных зрительно привлекательных типичных поведений человека из музыкальных сигналов имеет потрясающий прогресс в виртуализации анимации. Существующие методы позволяют синтезировать танцы директно, однако не учитывают возможность их редактирования, что является ключевым аспектом в реальных условиях хореографической работы. Кроме того, отсутствие высококачественных данных, охватывающих iterative editing препятствует решению этой проблемы. Для решения этой задачи, мы строим DanceRemix, большую по объему многократно редактируемую хронологию танца, состоящую из предложений, фиксирующих более 25.3 млн кадров танца и 84.5K пар. Кроме того, мы предлагаем новую модель iterative dance generation DanceEditor, которая сочетает в себе удобство использования и контроля пользователем. ## Метод Метод DanceEditor основывается на парадигме prediction-then-editing (предсказание, затем редактирование), которая подразумевает объединение модальностей музыки и текста в формировании редактируемых пользователем танцев. На первой стадии, мы применяем подход, который моделирует танцевые движения напрямую из музыки, что приводит к более авторитетным результатам. На следующих стадиях, мы используем text descriptions для уточнения результатов редактирования. Наш Cross-modality Editing Module (CEM) интегрирует информацию из музыки и текста в качестве временных показателей, чтобы гарантировать музыкальный ритм и точность семантического соответствия. Это позволяет синтезировать результаты, которые в то же время согласовываются с музыкой и отвечают пользовательским требованиям. ## Результаты Мы проверили нашу модель на новой коллекции DanceRemix, которая позволяет эффективно оценивать оперативность и точность редактирования. Результаты показывают, что наш подход превосходит состояние техники по многим показателям. Мы также проверяли наши результаты на других данных, показав, что наша модель демонстрирует высокую точность редактирования и сохраняет музыкальную гармонию, даже при проведении многократных редактирований. ## Значимость Наш подход имеет многочисленные приложения в графическом дизайне, анимации, играх и виртуальных реальностях. Он обеспечивает пользователям высокую степень контроля и гибкость при создании танца, что увеличивает его привлекательность для реальных хореографических задач. Кроме того, высокая точность редактирования и сохранение музыкального ритма делают нашу модель привлекательной для профессиональных хореографов. ## Выводы Мы представляем DanceEditor, новую модель iterative editable music-driven dance generation с поддержкой open-vocabulary descriptions. Мы строим нашу модель на DanceRemix, большой многократно редактируемой

Abstract

Generating coherent and diverse human dances from music signals has gained tremendous progress in animating virtual avatars. While existing methods support direct dance synthesis, they fail to recognize that enabling users to edit dance movements is far more practical in real-world choreography scenarios. Moreover, the lack of high-quality dance datasets incorporating iterative editing also limits addressing this challenge. To achieve this goal, we first construct DanceRemix, a large-scale multi-turn editable dance dataset comprising the prompt featuring over 25.3M dance frames and 84.5K pairs. In addition, we propose a novel framework for iterative and editable dance generation coherently aligned with given music signals, namely DanceEditor. Considering the dance motion should be both musical rhythmic and enable iterative editing by user descriptions, our framework is built upon a prediction-then-editing paradigm unifying multi-modal conditions. At the initial prediction stage, our framework improves the authority of generated results by directly modeling dance movements from tailored, aligned music. Moreover, at the subsequent iterative editing stages, we incorporate text descriptions as conditioning information to draw the editable results through a specifically designed Cross-modality Editing Module (CEM). Specifically, CEM adaptively integrates the initial prediction with music and text prompts as temporal motion cues to guide the synthesized sequences. Thereby, the results display music harmonics while preserving fine-grained semantic alignment with text descriptions. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on our newly collected DanceRemix dataset. Code is available at https://lzvsdy.github.io/DanceEditor/.

Ссылки и действия

Связанные статьи

MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation

## Контекст Музыка и танцы широко используются в различных областях, включая развлечения, театр, виртуальные реальности ...

2025-08-27