Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview

2509.04450v1 cs.CV, cs.LG 2025-09-06

Авторы:

Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

Резюме на русском

#### Контекст Область виртуальных примерок одежды (virtual try-on) увлекательна и новаторна, особенно с учетом возрастающего интереса к интерактивному онлайн-шопингу. Существующие методы часто ограничены в длине генерируемых видео, что не позволяет охватить разнообразие движений пользователя или длительные сценарии. Это связано с техническими вызовами, связанными с ресурсоемкостью генерирования и необходимостью обрабатывать большие объемы данных. Мотивация для этого исследования заключается в развитии модели, которая сможет генерировать длинные видео с высокой степенью реализму и постоянства, оптимизируя ресурсы и увеличивая гибкость. #### Метод Методология Virtual Fitting Room (VFR) основывается на подходе, основанном на авторегрессии и разбиении задачи на сегменты. Основная идея заключается в том, чтобы генерировать видео по-очереди, начиная с префикса, который обеспечивает локальную сглаженность, и использовать анкор-видео (360-градусный тур вокруг человека) для поддержки глобального временного синхронизации. Архитектура VFR включает в себя модели генерирования, редактирования и совмещения видео, чтобы обеспечить гладкость и консистентность. Этот подход исключает необходимость тяжеловесных вычислительных операций и длительного ролика, позволяя генерировать видео длиной до нескольких минут. #### Результаты В ходе экспериментов VFR было протестировано на различных данных, включая разнообразные полноелобные видео. Модель показала высокую точность в генерировании видео, где каждый кадр был сглажен с предыдущими и дальнейшими, при этом сохранялась всюдуто глобальная консистентность. Особенно значимы результаты в сценариях, где пользователь делает многообразные движения, так как VFR адаптируется к этим изменениям, сохраняя качество кадра и временной последовательности. #### Значимость Потенциал VFR распространяется на множество областей, включая онлайн-трейдинг, интерактивные технологии, а также развитие реального видео-создания. Одним из основных преимуществ является уменьшение ресурсоемкости при генерировании видео, что делает VFR более доступным для различных приложений. Благодаря своей уникальности, модель может стать инструментом для повышения пользовательского опыта в интернет-магазинах, а также для развития научных исследований в области видео-генерации. #### Выводы Выводы экспериментов подтверждают эффективность VFR в генерировании длительных видео с высокой степенью реалистичности и сглаженности. Будущие исследования будут сконцентрированы на улучшении качества генерирования, внед

Abstract

We introduce the Virtual Fitting Room (VFR), a novel video generative model that produces arbitrarily long virtual try-on videos. Our VFR models long video generation tasks as an auto-regressive, segment-by-segment generation process, eliminating the need for resource-intensive generation and lengthy video data, while providing the flexibility to generate videos of arbitrary length. The key challenges of this task are twofold: ensuring local smoothness between adjacent segments and maintaining global temporal consistency across different segments. To address these challenges, we propose our VFR framework, which ensures smoothness through a prefix video condition and enforces consistency with the anchor video -- a 360-degree video that comprehensively captures the human's wholebody appearance. Our VFR generates minute-scale virtual try-on videos with both local smoothness and global temporal consistency under various motions, making it a pioneering work in long virtual try-on video generation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация