Dress&Dance: Dress up and Dance as You Like It - Technical Preview

2508.21070v1 cs.CV, cs.LG 2025-08-29
Авторы:

Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

Резюме на русском

#### Контекст Область искусственного интеллекта в стилистике и моделировании одежды постоянно растет, позволяя пользователям экспериментировать с своим образом. Существуют технологии, позволяющие осуществить виртуальный подбор одежды, но они часто имеют ограничения в качестве генерируемых видео или требуют большого количества ресурсов для оптимального функционирования. Задача – создать продвинутую систему, которая была бы качественной, гибкой и эффективной для пользователей. #### Метод Dress&Dance – это видео-размывающая фреймворк, который использует технологию размывания для генерации высококачественных видео одежды в 5 секундных циклах с 24 кадрами в секунду. Он поддерживает широкий спектр вида одежды, включая верхи, нижи, и односторонние комплекты. Существенным моментом является CondNet – уникальная сеть условного обучения, использующая внимание для объединения разных типов входных данных (текст, изображения и видео). Эта сеть обеспечивает лучшую регистрацию одежды и точность движения. Метод основывается на развитых методах глубокого обучения, объединяя многомодальные данные в прогрессивном обучении. #### Результаты Использованные данные включают в себя как ограниченные видео, так и более крупный набор изображений. Размывающая фреймворк показала высокое качество видео-превьюшек, которые позволяют пользователю эффективно осуществить виртуальный подбор одежды. Он демонстрирует лучшую интеграцию текстовых, изображениях и видеопотоков, а также выдает более точные модели движения по сравнению с существующими системами. #### Значимость Dress&Dance может применяться в сфере онлайн-торговли, где пользователи могут просматривать различные варианты одежды на себе в реальном времени. Также может использоваться в развитии алгоритмов для создания 3D моделей одежды и в геймификации. Его гибкость и высокое качество генерации видео открывают новые возможности в улучшении интерактивности и эффективности пользователя в онлайн-покупках. #### Выводы Dress&Dance демонстрирует новые возможности виртуальных подборов одежды за счет развитой технологии CondNet и мультимодального обучения. Данный фреймворк открывает новые горизонты для реалистичного моделирования одежды и может быть использован в разных отраслях. Будущими исследованиями будет направлено внимание на улучшение качества видео, увеличение количества поддерживаемых видов одежды и расширение технологии на другие типы тканей и движений.

Abstract

We present Dress&Dance, a video diffusion framework that generates high quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a user wearing desired garments while moving in accordance with a given reference video. Our approach requires a single user image and supports a range of tops, bottoms, and one-piece garments, as well as simultaneous tops and bottoms try-on in a single pass. Key to our framework is CondNet, a novel conditioning network that leverages attention to unify multi-modal inputs (text, images, and videos), thereby enhancing garment registration and motion fidelity. CondNet is trained on heterogeneous training data, combining limited video data and a larger, more readily available image dataset, in a multistage progressive manner. Dress&Dance outperforms existing open source and commercial solutions and enables a high quality and flexible try-on experience.

Ссылки и действия