Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview
2509.04450v1
cs.CV, cs.LG
2025-09-06
Авторы:
Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
Резюме на русском
#### Контекст
Область виртуальных примерок одежды (virtual try-on) увлекательна и новаторна, особенно с учетом возрастающего интереса к интерактивному онлайн-шопингу. Существующие методы часто ограничены в длине генерируемых видео, что не позволяет охватить разнообразие движений пользователя или длительные сценарии. Это связано с техническими вызовами, связанными с ресурсоемкостью генерирования и необходимостью обрабатывать большие объемы данных. Мотивация для этого исследования заключается в развитии модели, которая сможет генерировать длинные видео с высокой степенью реализму и постоянства, оптимизируя ресурсы и увеличивая гибкость.
#### Метод
Методология Virtual Fitting Room (VFR) основывается на подходе, основанном на авторегрессии и разбиении задачи на сегменты. Основная идея заключается в том, чтобы генерировать видео по-очереди, начиная с префикса, который обеспечивает локальную сглаженность, и использовать анкор-видео (360-градусный тур вокруг человека) для поддержки глобального временного синхронизации. Архитектура VFR включает в себя модели генерирования, редактирования и совмещения видео, чтобы обеспечить гладкость и консистентность. Этот подход исключает необходимость тяжеловесных вычислительных операций и длительного ролика, позволяя генерировать видео длиной до нескольких минут.
#### Результаты
В ходе экспериментов VFR было протестировано на различных данных, включая разнообразные полноелобные видео. Модель показала высокую точность в генерировании видео, где каждый кадр был сглажен с предыдущими и дальнейшими, при этом сохранялась всюдуто глобальная консистентность. Особенно значимы результаты в сценариях, где пользователь делает многообразные движения, так как VFR адаптируется к этим изменениям, сохраняя качество кадра и временной последовательности.
#### Значимость
Потенциал VFR распространяется на множество областей, включая онлайн-трейдинг, интерактивные технологии, а также развитие реального видео-создания. Одним из основных преимуществ является уменьшение ресурсоемкости при генерировании видео, что делает VFR более доступным для различных приложений. Благодаря своей уникальности, модель может стать инструментом для повышения пользовательского опыта в интернет-магазинах, а также для развития научных исследований в области видео-генерации.
#### Выводы
Выводы экспериментов подтверждают эффективность VFR в генерировании длительных видео с высокой степенью реалистичности и сглаженности. Будущие исследования будут сконцентрированы на улучшении качества генерирования, внед
Abstract
We introduce the Virtual Fitting Room (VFR), a novel video generative model
that produces arbitrarily long virtual try-on videos. Our VFR models long video
generation tasks as an auto-regressive, segment-by-segment generation process,
eliminating the need for resource-intensive generation and lengthy video data,
while providing the flexibility to generate videos of arbitrary length. The key
challenges of this task are twofold: ensuring local smoothness between adjacent
segments and maintaining global temporal consistency across different segments.
To address these challenges, we propose our VFR framework, which ensures
smoothness through a prefix video condition and enforces consistency with the
anchor video -- a 360-degree video that comprehensively captures the human's
wholebody appearance. Our VFR generates minute-scale virtual try-on videos with
both local smoothness and global temporal consistency under various motions,
making it a pioneering work in long virtual try-on video generation.
Ссылки и действия
Дополнительные ресурсы: