Dress&Dance: Dress up and Dance as You Like It - Technical Preview
2508.21070v1
cs.CV, cs.LG
2025-08-29
Авторы:
Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
Резюме на русском
#### Контекст
Область искусственного интеллекта в стилистике и моделировании одежды постоянно растет, позволяя пользователям экспериментировать с своим образом. Существуют технологии, позволяющие осуществить виртуальный подбор одежды, но они часто имеют ограничения в качестве генерируемых видео или требуют большого количества ресурсов для оптимального функционирования. Задача – создать продвинутую систему, которая была бы качественной, гибкой и эффективной для пользователей.
#### Метод
Dress&Dance – это видео-размывающая фреймворк, который использует технологию размывания для генерации высококачественных видео одежды в 5 секундных циклах с 24 кадрами в секунду. Он поддерживает широкий спектр вида одежды, включая верхи, нижи, и односторонние комплекты. Существенным моментом является CondNet – уникальная сеть условного обучения, использующая внимание для объединения разных типов входных данных (текст, изображения и видео). Эта сеть обеспечивает лучшую регистрацию одежды и точность движения. Метод основывается на развитых методах глубокого обучения, объединяя многомодальные данные в прогрессивном обучении.
#### Результаты
Использованные данные включают в себя как ограниченные видео, так и более крупный набор изображений. Размывающая фреймворк показала высокое качество видео-превьюшек, которые позволяют пользователю эффективно осуществить виртуальный подбор одежды. Он демонстрирует лучшую интеграцию текстовых, изображениях и видеопотоков, а также выдает более точные модели движения по сравнению с существующими системами.
#### Значимость
Dress&Dance может применяться в сфере онлайн-торговли, где пользователи могут просматривать различные варианты одежды на себе в реальном времени. Также может использоваться в развитии алгоритмов для создания 3D моделей одежды и в геймификации. Его гибкость и высокое качество генерации видео открывают новые возможности в улучшении интерактивности и эффективности пользователя в онлайн-покупках.
#### Выводы
Dress&Dance демонстрирует новые возможности виртуальных подборов одежды за счет развитой технологии CondNet и мультимодального обучения. Данный фреймворк открывает новые горизонты для реалистичного моделирования одежды и может быть использован в разных отраслях. Будущими исследованиями будет направлено внимание на улучшение качества видео, увеличение количества поддерживаемых видов одежды и расширение технологии на другие типы тканей и движений.
Abstract
We present Dress&Dance, a video diffusion framework that generates high
quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a
user wearing desired garments while moving in accordance with a given reference
video. Our approach requires a single user image and supports a range of tops,
bottoms, and one-piece garments, as well as simultaneous tops and bottoms
try-on in a single pass. Key to our framework is CondNet, a novel conditioning
network that leverages attention to unify multi-modal inputs (text, images, and
videos), thereby enhancing garment registration and motion fidelity. CondNet is
trained on heterogeneous training data, combining limited video data and a
larger, more readily available image dataset, in a multistage progressive
manner. Dress&Dance outperforms existing open source and commercial solutions
and enables a high quality and flexible try-on experience.
Ссылки и действия
Дополнительные ресурсы: