SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models
2508.03402v1
cs.CV, cs.AI, cs.LG
2025-08-06
Авторы:
Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer
Резюме на русском
**Резюме:**
SCFlow — это новое решение для неявного разделения стиля и содержания в визуальных моделях, которое избегает заморочки с явным разделением этих концептов. Обычно это сложно из-за их семантического перекрытия и субъективности человеческого восприятия. Существующие методы пытаются отделить стиль и содержание через генеративные или дискриминативные подходы, но сталкиваются с неоднозначностью этих задач.
SCFlow использует подход flow-matching, чтобы обучить модель непосредственно слиянию стиля и содержания в обратимом процессе, позволяя разделение возникать естественным образом. Основные идеи заключаются в том, что: 1) обучение только на слияние этих концептов — это хорошо определенная задача; 2) flow-matching работает на произвольных распределениях, не ограничиваясь нормальными распределениями как в диффузионных моделях и нормализующих потоках; 3) синтетический датасет из 510 тысяч образцов (51 стиля × 10 тысяч содержаний) был создан для симуляции данного процесса.
Кроме того, SCFlow демонстрирует хорошие результаты в задачах контролируемой генерации и нулевого шота на ImageNet-1k и WikiArt, показывая, что разделение содержания и стиля возникает естественным образом из обратимого процесса слияния.
Abstract
Explicitly disentangling style and content in vision models remains
challenging due to their semantic overlap and the subjectivity of human
perception. Existing methods propose separation through generative or
discriminative objectives, but they still face the inherent ambiguity of
disentangling intertwined concepts. Instead, we ask: Can we bypass explicit
disentanglement by learning to merge style and content invertibly, allowing
separation to emerge naturally? We propose SCFlow, a flow-matching framework
that learns bidirectional mappings between entangled and disentangled
representations. Our approach is built upon three key insights: 1) Training
solely to merge style and content, a well-defined task, enables invertible
disentanglement without explicit supervision; 2) flow matching bridges on
arbitrary distributions, avoiding the restrictive Gaussian priors of diffusion
models and normalizing flows; and 3) a synthetic dataset of 510,000 samples (51
styles $\times$ 10,000 content samples) was curated to simulate disentanglement
through systematic style-content pairing. Beyond controllable generation tasks,
we demonstrate that SCFlow generalizes to ImageNet-1k and WikiArt in zero-shot
settings and achieves competitive performance, highlighting that
disentanglement naturally emerges from the invertible merging process.
Ссылки и действия
Дополнительные ресурсы: