## Контекст
Музыка и танцы широко используются в различных областях, включая развлечения, театр, виртуальные реальности и интерактивные системы. Одной из сложностей в этой области является создание синхронизированных трехмерных моделей тела, которые отвечают на заданные предложения в тексте и музыкальные фрагменты. Существующие базы данных ограничены либо в том, что они содержат только текст или только музыку, либо не учитывают взаимосвязь между текстом, музыкой и теловыми движениями. Наша мотивация заключается в том, чтобы создать полноценную, многомодальную базу данных, которая учитывает все эти аспекты, чтобы обеспечить более точное и естественное генерирование движений в различных сценариях.
## Метод
Чтобы удовлетворить эти требования, мы представили Multimodal DuetDance (MDD), многомодальную базу данных, состоящую из 620 минут высококачественного данных морфинга тела, взятых с профессиональных танцоров. Эти данные были синхронизированы с музыкой и дополнены более 10 000 тонкими естественными описаниями языка. Мы разработали два новых задания: (1) **Text-to-Duet**, где данные входа — музыка и текстовое предложение, и задача состоит в генерации движений ведущего и следующего танцоров, и (2) **Text-to-Dance Accompaniment**, где данные входа — музыка, текстовое предложение и движения ведущего танцора, и задача состоит в генерации движений следующего танцора, соответствующих тексту и музыке. Эти задачи позволяют создавать естественные и синхронизированные трехмерные модели движений.
## Результаты
Мы провели эксперименты, используя новую базу данных MDD, и сравнили результаты с существующими методами. Наши результаты показали, что данные MDD обеспечивают более точное и естественное генерирование движений, учитывая взаимосвязь музыки, текста и теловых движений. Мы также проанализировали различные аспекты, такие как точность, синхронизация и читаемость результатов, чтобы подтвердить эффективность нашей методологии.
## Значимость
База данных MDD может быть применена в различных сферах, таких как виртуальная реальность, анимация, интерактивные системы и искусственный интеллект. Она предоставляет преимущества в том, что она позволяет создавать более естественные и точные движения, синхронизированные с музыкой и текстом. Это может привести к новым возможностям в создании интерактивных видеоигр, виртуальных танцоров и анимации, улучшая качество и эффективность развлекательных систем.
## Выводы
Наша работа представляет первую многомодальную базу данных для генерирования движений