FLUX-Makeup: High-Fidelity, Identity-Consistent, and Robust Makeup Transfer via Diffusion Transformer

2508.05069v1 cs.CV 2025-08-09
Авторы:

Jian Zhu, Shanyuan Liu, Liuzhuozheng Li, Yue Gong, He Wang, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Dawei Leng, Yuhui Yin, Yang Xu

Резюме на русском

Многие существующие GAN-ориентированные и диффузион-ориентированные подходы к макияжу transfera сталкиваются с проблемой достижения высокого качества и сохранения точности лицевой идентичности. Эти подходы часто вводят дополнительные модули управления лицом или дополнительные потери, что приводит к ошибкам и неудовлетворительным результатам. В нашей работе мы предлагаем FLUX-Makeup, новую, готовую к применению в реальной среде, архитектуру для макияжа transfera, которая не требует дополнительных модулей управления лицом. Мы используем FLUX-Kontext как основную структуру, но добавляем RefLoRAInjector — легковесный модуль для инъекции makeup-особенностей, что позволяет эффективно извлекать и обрабатывать информацию о макияже. Кроме того, мы развиваем новую, более точную и масштабируемую тренировочную трубу данных. Наши эксперименты показали, что FLUX-Makeup превосходит текущие подходы в макияже transfera, обеспечивая высокую точность и устойчивость в различных условиях.

Abstract

Makeup transfer aims to apply the makeup style from a reference face to a target face and has been increasingly adopted in practical applications. Existing GAN-based approaches typically rely on carefully designed loss functions to balance transfer quality and facial identity consistency, while diffusion-based methods often depend on additional face-control modules or algorithms to preserve identity. However, these auxiliary components tend to introduce extra errors, leading to suboptimal transfer results. To overcome these limitations, we propose FLUX-Makeup, a high-fidelity, identity-consistent, and robust makeup transfer framework that eliminates the need for any auxiliary face-control components. Instead, our method directly leverages source-reference image pairs to achieve superior transfer performance. Specifically, we build our framework upon FLUX-Kontext, using the source image as its native conditional input. Furthermore, we introduce RefLoRAInjector, a lightweight makeup feature injector that decouples the reference pathway from the backbone, enabling efficient and comprehensive extraction of makeup-related information. In parallel, we design a robust and scalable data generation pipeline to provide more accurate supervision during training. The paired makeup datasets produced by this pipeline significantly surpass the quality of all existing datasets. Extensive experiments demonstrate that FLUX-Makeup achieves state-of-the-art performance, exhibiting strong robustness across diverse scenarios.

Ссылки и действия