One Model For All: Partial Diffusion for Unified Try-On and Try-Off in Any Pose

2508.04559v1 cs.CV 2025-08-09
Авторы:

Jinxi Liu, Zijian He, Guangrun Wang, Guanbin Li, Liang Lin

Резюме на русском

Настоящая работа представляет собой универсальный метод для виртуального примерки и снятия одежды в любой позе, основанный на распространении шума в пространстве образов. До этого момента, большинство существующих подходов для виртуальной примерки ограничивались использованием наглядных тканей и масок сегментации, а также строгой привязкой к исходной позе, что приводило к ограниченности практического применения. Мы предлагаем **OMFA** (One Model For All) — универсальный фреймворк, работающий в пределах одной модели, что позволяет осуществлять обе операции: снятие одежды с одного человека (try-off) и их перевод на другого (try-on) в любой позе. Работата основывается на так называемой **частичной распространении шума**, что позволяет динамически регулировать процесс обработки подсистем (например, одежды, лица или тела). Не требуя масок или множества изображений для одного человека, OMFA является практичным для реальных приложений и обеспечивает высококачественные результаты по сравнению с современными подходами в области виртуальной примерки.

Abstract

Recent diffusion-based approaches have made significant advances in image-based virtual try-on, enabling more realistic and end-to-end garment synthesis. However, most existing methods remain constrained by their reliance on exhibition garments and segmentation masks, as well as their limited ability to handle flexible pose variations. These limitations reduce their practicality in real-world scenarios-for instance, users cannot easily transfer garments worn by one person onto another, and the generated try-on results are typically restricted to the same pose as the reference image. In this paper, we introduce \textbf{OMFA} (\emph{One Model For All}), a unified diffusion framework for both virtual try-on and try-off that operates without the need for exhibition garments and supports arbitrary poses. For example, OMFA enables removing garments from a source person (try-off) and transferring them onto a target person (try-on), while also allowing the generated target to appear in novel poses-even without access to multi-pose images of that person. OMFA is built upon a novel \emph{partial diffusion} strategy that selectively applies noise and denoising to individual components of the joint input-such as the garment, the person image, or the face-enabling dynamic subtask control and efficient bidirectional garment-person transformation. The framework is entirely mask-free and requires only a single portrait and a target pose as input, making it well-suited for real-world applications. Additionally, by leveraging SMPL-X-based pose conditioning, OMFA supports multi-view and arbitrary-pose try-on from just one image. Extensive experiments demonstrate that OMFA achieves state-of-the-art results on both try-on and try-off tasks, providing a practical and generalizable solution for virtual garment synthesis. The project page is here: https://onemodelforall.github.io/.

Ссылки и действия