Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
2508.04825v1
cs.GR, cs.AI, cs.CV, cs.LG
2025-08-09
Авторы:
Seungyong Lee, Jeong-gi Kwak
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений.
Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой.
Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках.
Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference):
1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях.
2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели.
Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей.
Преимущества Voost включают в себя:
- Улучшенное понимание взаимодействия между телом и одеждой.
- Упрощенная модель без необходимости дополнительных сетей или меток.
- Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга.
Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.
Abstract
Virtual try-on aims to synthesize a realistic image of a person wearing a
target garment, but accurately modeling garment-body correspondence remains a
persistent challenge, especially under pose and appearance variation. In this
paper, we propose Voost - a unified and scalable framework that jointly learns
virtual try-on and try-off with a single diffusion transformer. By modeling
both tasks jointly, Voost enables each garment-person pair to supervise both
directions and supports flexible conditioning over generation direction and
garment category, enhancing garment-body relational reasoning without
task-specific networks, auxiliary losses, or additional labels. In addition, we
introduce two inference-time techniques: attention temperature scaling for
robustness to resolution or mask variation, and self-corrective sampling that
leverages bidirectional consistency between tasks. Extensive experiments
demonstrate that Voost achieves state-of-the-art results on both try-on and
try-off benchmarks, consistently outperforming strong baselines in alignment
accuracy, visual fidelity, and generalization.