📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation

2025-08-27

Авторы:

Prerit Gupta, Jason Alexander Fotso-Puepi, Zhengyuan Li, Jay Mehta, Aniket Bera

## Контекст Музыка и танцы широко используются в различных областях, включая развлечения, театр, виртуальные реальности и интерактивные системы. Одной из сложностей в этой области является создание синхронизированных трехмерных моделей тела, которые отвечают на заданные предложения в тексте и музыкальные фрагменты. Существующие базы данных ограничены либо в том, что они содержат только текст или только музыку, либо не учитывают взаимосвязь между текстом, музыкой и теловыми движениями. Наша мотивация заключается в том, чтобы создать полноценную, многомодальную базу данных, которая учитывает все эти аспекты, чтобы обеспечить более точное и естественное генерирование движений в различных сценариях. ## Метод Чтобы удовлетворить эти требования, мы представили Multimodal DuetDance (MDD), многомодальную базу данных, состоящую из 620 минут высококачественного данных морфинга тела, взятых с профессиональных танцоров. Эти данные были синхронизированы с музыкой и дополнены более 10 000 тонкими естественными описаниями языка. Мы разработали два новых задания: (1) **Text-to-Duet**, где данные входа — музыка и текстовое предложение, и задача состоит в генерации движений ведущего и следующего танцоров, и (2) **Text-to-Dance Accompaniment**, где данные входа — музыка, текстовое предложение и движения ведущего танцора, и задача состоит в генерации движений следующего танцора, соответствующих тексту и музыке. Эти задачи позволяют создавать естественные и синхронизированные трехмерные модели движений. ## Результаты Мы провели эксперименты, используя новую базу данных MDD, и сравнили результаты с существующими методами. Наши результаты показали, что данные MDD обеспечивают более точное и естественное генерирование движений, учитывая взаимосвязь музыки, текста и теловых движений. Мы также проанализировали различные аспекты, такие как точность, синхронизация и читаемость результатов, чтобы подтвердить эффективность нашей методологии. ## Значимость База данных MDD может быть применена в различных сферах, таких как виртуальная реальность, анимация, интерактивные системы и искусственный интеллект. Она предоставляет преимущества в том, что она позволяет создавать более естественные и точные движения, синхронизированные с музыкой и текстом. Это может привести к новым возможностям в создании интерактивных видеоигр, виртуальных танцоров и анимации, улучшая качество и эффективность развлекательных систем. ## Выводы Наша работа представляет первую многомодальную базу данных для генерирования движений

Annotation:

We introduce Multimodal DuetDance (MDD), a diverse multimodal benchmark dataset designed for text-controlled and music-conditioned 3D duet dance motion generation. Our dataset comprises 620 minutes of high-quality motion capture data performed by professional dancers, synchronized with music, and detailed with over 10K fine-grained natural language descriptions. The annotations capture a rich movement vocabulary, detailing spatial relationships, body movements, and rhythm, making MDD the first d...

ID: 2508.16911v1 cs.GR, cs.CV, cs.MM, cs.SD

arXiv PDF

📄 DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions

2025-08-27

Авторы:

Hengyuan Zhang, Zhe Li, Xingqun Qi, Mengze Li, Muyi Sun, Man Zhang, Sirui Han

## Контекст Генерация согласованных и разнообразных зрительно привлекательных типичных поведений человека из музыкальных сигналов имеет потрясающий прогресс в виртуализации анимации. Существующие методы позволяют синтезировать танцы директно, однако не учитывают возможность их редактирования, что является ключевым аспектом в реальных условиях хореографической работы. Кроме того, отсутствие высококачественных данных, охватывающих iterative editing препятствует решению этой проблемы. Для решения этой задачи, мы строим DanceRemix, большую по объему многократно редактируемую хронологию танца, состоящую из предложений, фиксирующих более 25.3 млн кадров танца и 84.5K пар. Кроме того, мы предлагаем новую модель iterative dance generation DanceEditor, которая сочетает в себе удобство использования и контроля пользователем. ## Метод Метод DanceEditor основывается на парадигме prediction-then-editing (предсказание, затем редактирование), которая подразумевает объединение модальностей музыки и текста в формировании редактируемых пользователем танцев. На первой стадии, мы применяем подход, который моделирует танцевые движения напрямую из музыки, что приводит к более авторитетным результатам. На следующих стадиях, мы используем text descriptions для уточнения результатов редактирования. Наш Cross-modality Editing Module (CEM) интегрирует информацию из музыки и текста в качестве временных показателей, чтобы гарантировать музыкальный ритм и точность семантического соответствия. Это позволяет синтезировать результаты, которые в то же время согласовываются с музыкой и отвечают пользовательским требованиям. ## Результаты Мы проверили нашу модель на новой коллекции DanceRemix, которая позволяет эффективно оценивать оперативность и точность редактирования. Результаты показывают, что наш подход превосходит состояние техники по многим показателям. Мы также проверяли наши результаты на других данных, показав, что наша модель демонстрирует высокую точность редактирования и сохраняет музыкальную гармонию, даже при проведении многократных редактирований. ## Значимость Наш подход имеет многочисленные приложения в графическом дизайне, анимации, играх и виртуальных реальностях. Он обеспечивает пользователям высокую степень контроля и гибкость при создании танца, что увеличивает его привлекательность для реальных хореографических задач. Кроме того, высокая точность редактирования и сохранение музыкального ритма делают нашу модель привлекательной для профессиональных хореографов. ## Выводы Мы представляем DanceEditor, новую модель iterative editable music-driven dance generation с поддержкой open-vocabulary descriptions. Мы строим нашу модель на DanceRemix, большой многократно редактируемой

Annotation:

Generating coherent and diverse human dances from music signals has gained tremendous progress in animating virtual avatars. While existing methods support direct dance synthesis, they fail to recognize that enabling users to edit dance movements is far more practical in real-world choreography scenarios. Moreover, the lack of high-quality dance datasets incorporating iterative editing also limits addressing this challenge. To achieve this goal, we first construct DanceRemix, a large-scale multi...

ID: 2508.17342v1 cs.GR, cs.CV, cs.MM, cs.SD

arXiv PDF