MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation

2508.16911v1 cs.GR, cs.CV, cs.MM, cs.SD 2025-08-27
Авторы:

Prerit Gupta, Jason Alexander Fotso-Puepi, Zhengyuan Li, Jay Mehta, Aniket Bera

Резюме на русском

## Контекст Музыка и танцы широко используются в различных областях, включая развлечения, театр, виртуальные реальности и интерактивные системы. Одной из сложностей в этой области является создание синхронизированных трехмерных моделей тела, которые отвечают на заданные предложения в тексте и музыкальные фрагменты. Существующие базы данных ограничены либо в том, что они содержат только текст или только музыку, либо не учитывают взаимосвязь между текстом, музыкой и теловыми движениями. Наша мотивация заключается в том, чтобы создать полноценную, многомодальную базу данных, которая учитывает все эти аспекты, чтобы обеспечить более точное и естественное генерирование движений в различных сценариях. ## Метод Чтобы удовлетворить эти требования, мы представили Multimodal DuetDance (MDD), многомодальную базу данных, состоящую из 620 минут высококачественного данных морфинга тела, взятых с профессиональных танцоров. Эти данные были синхронизированы с музыкой и дополнены более 10 000 тонкими естественными описаниями языка. Мы разработали два новых задания: (1) **Text-to-Duet**, где данные входа — музыка и текстовое предложение, и задача состоит в генерации движений ведущего и следующего танцоров, и (2) **Text-to-Dance Accompaniment**, где данные входа — музыка, текстовое предложение и движения ведущего танцора, и задача состоит в генерации движений следующего танцора, соответствующих тексту и музыке. Эти задачи позволяют создавать естественные и синхронизированные трехмерные модели движений. ## Результаты Мы провели эксперименты, используя новую базу данных MDD, и сравнили результаты с существующими методами. Наши результаты показали, что данные MDD обеспечивают более точное и естественное генерирование движений, учитывая взаимосвязь музыки, текста и теловых движений. Мы также проанализировали различные аспекты, такие как точность, синхронизация и читаемость результатов, чтобы подтвердить эффективность нашей методологии. ## Значимость База данных MDD может быть применена в различных сферах, таких как виртуальная реальность, анимация, интерактивные системы и искусственный интеллект. Она предоставляет преимущества в том, что она позволяет создавать более естественные и точные движения, синхронизированные с музыкой и текстом. Это может привести к новым возможностям в создании интерактивных видеоигр, виртуальных танцоров и анимации, улучшая качество и эффективность развлекательных систем. ## Выводы Наша работа представляет первую многомодальную базу данных для генерирования движений

Abstract

We introduce Multimodal DuetDance (MDD), a diverse multimodal benchmark dataset designed for text-controlled and music-conditioned 3D duet dance motion generation. Our dataset comprises 620 minutes of high-quality motion capture data performed by professional dancers, synchronized with music, and detailed with over 10K fine-grained natural language descriptions. The annotations capture a rich movement vocabulary, detailing spatial relationships, body movements, and rhythm, making MDD the first dataset to seamlessly integrate human motions, music, and text for duet dance generation. We introduce two novel tasks supported by our dataset: (1) Text-to-Duet, where given music and a textual prompt, both the leader and follower dance motion are generated (2) Text-to-Dance Accompaniment, where given music, textual prompt, and the leader's motion, the follower's motion is generated in a cohesive, text-aligned manner. We include baseline evaluations on both tasks to support future research.

Ссылки и действия

Связанные статьи

DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-...

## Контекст Генерация согласованных и разнообразных зрительно привлекательных типичных поведений человека из музыкальных...

2025-08-27