DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions
2508.17342v1
cs.GR, cs.CV, cs.MM, cs.SD
2025-08-27
Авторы:
Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han
Резюме на русском
## Контекст
Генерация согласованных и разнообразных зрительно привлекательных типичных поведений человека из музыкальных сигналов имеет потрясающий прогресс в виртуализации анимации. Существующие методы позволяют синтезировать танцы директно, однако не учитывают возможность их редактирования, что является ключевым аспектом в реальных условиях хореографической работы. Кроме того, отсутствие высококачественных данных, охватывающих iterative editing препятствует решению этой проблемы. Для решения этой задачи, мы строим DanceRemix, большую по объему многократно редактируемую хронологию танца, состоящую из предложений, фиксирующих более 25.3 млн кадров танца и 84.5K пар. Кроме того, мы предлагаем новую модель iterative dance generation DanceEditor, которая сочетает в себе удобство использования и контроля пользователем.
## Метод
Метод DanceEditor основывается на парадигме prediction-then-editing (предсказание, затем редактирование), которая подразумевает объединение модальностей музыки и текста в формировании редактируемых пользователем танцев. На первой стадии, мы применяем подход, который моделирует танцевые движения напрямую из музыки, что приводит к более авторитетным результатам. На следующих стадиях, мы используем text descriptions для уточнения результатов редактирования. Наш Cross-modality Editing Module (CEM) интегрирует информацию из музыки и текста в качестве временных показателей, чтобы гарантировать музыкальный ритм и точность семантического соответствия. Это позволяет синтезировать результаты, которые в то же время согласовываются с музыкой и отвечают пользовательским требованиям.
## Результаты
Мы проверили нашу модель на новой коллекции DanceRemix, которая позволяет эффективно оценивать оперативность и точность редактирования. Результаты показывают, что наш подход превосходит состояние техники по многим показателям. Мы также проверяли наши результаты на других данных, показав, что наша модель демонстрирует высокую точность редактирования и сохраняет музыкальную гармонию, даже при проведении многократных редактирований.
## Значимость
Наш подход имеет многочисленные приложения в графическом дизайне, анимации, играх и виртуальных реальностях. Он обеспечивает пользователям высокую степень контроля и гибкость при создании танца, что увеличивает его привлекательность для реальных хореографических задач. Кроме того, высокая точность редактирования и сохранение музыкального ритма делают нашу модель привлекательной для профессиональных хореографов.
## Выводы
Мы представляем DanceEditor, новую модель iterative editable music-driven dance generation с поддержкой open-vocabulary descriptions. Мы строим нашу модель на DanceRemix, большой многократно редактируемой
Abstract
Generating coherent and diverse human dances from music signals has gained
tremendous progress in animating virtual avatars. While existing methods
support direct dance synthesis, they fail to recognize that enabling users to
edit dance movements is far more practical in real-world choreography
scenarios. Moreover, the lack of high-quality dance datasets incorporating
iterative editing also limits addressing this challenge. To achieve this goal,
we first construct DanceRemix, a large-scale multi-turn editable dance dataset
comprising the prompt featuring over 25.3M dance frames and 84.5K pairs. In
addition, we propose a novel framework for iterative and editable dance
generation coherently aligned with given music signals, namely DanceEditor.
Considering the dance motion should be both musical rhythmic and enable
iterative editing by user descriptions, our framework is built upon a
prediction-then-editing paradigm unifying multi-modal conditions. At the
initial prediction stage, our framework improves the authority of generated
results by directly modeling dance movements from tailored, aligned music.
Moreover, at the subsequent iterative editing stages, we incorporate text
descriptions as conditioning information to draw the editable results through a
specifically designed Cross-modality Editing Module (CEM). Specifically, CEM
adaptively integrates the initial prediction with music and text prompts as
temporal motion cues to guide the synthesized sequences. Thereby, the results
display music harmonics while preserving fine-grained semantic alignment with
text descriptions. Extensive experiments demonstrate that our method
outperforms the state-of-the-art models on our newly collected DanceRemix
dataset. Code is available at https://lzvsdy.github.io/DanceEditor/.