USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
2508.18966v1
cs.CV, cs.LG
2025-08-28
Авторы:
Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
Резюме на русском
## Контекст
Изучение генерируемых стилистическими и тематическими ограничениями возникает во многих областях, включая глубокое обучение, графический дизайн, творческий текст и визуальный контент. Наиболее типичным является два разных подхода: стилистическая модель создает содержимое, сохраняя стилевую согласованность, в то время как тематическая модель сохраняет консистентность субъекта. Однако, подходы типично рассматриваются как взаимоисключающие, что создает проблему в создании моделей, способных одновременно обеспечить глубину содержания и стилевых компонентов. Эта проблема характеризуется взаимной антагонистичностью этих целей, которая часто приводит к взаимной потере качества. Существующие модели стилистической и тематической генерации обычно требуют переобучения или ручной коррекции, чтобы достичь приемлемого результата. Этот факт является мотивацией для разработки модели, которая может объединить эти две цели в единое решение.
## Метод
Модель USO предлагает создать единый подход к обработке стилистических и тематических задач. Для этого предлагается разделять содержание и стиль, а затем рекомпонировать их в соответствии с конкретными потребностями. Основной инновацией является использование трехзвенной структуры модели: 1. **Дисентangling Scheme**: Эта часть состоит из двух подходов — style-alignment training и content-style disentanglement training, которые работают сплошной системой, чтобы обеспечить глубину анализа и композиции стиля и содержания. 2. **Style Reward Learning**: Это описано как SRL — Style Reward Learning, которое используется для оптимизации результатов, учитывая тематические и стилевые характеристики. 3. **USO-Bench**: Новая модель предлагается для оценки совместного эффекта стиля и содержания, а также для предоставления полного бенчмарка для сравнения различных моделей.
## Результаты
Проведенные эксперименты показывают, что USO не только показывает высокую точность в выполнении задач стилистической и тематической генерации, но и достигает новых рекордов в сравнении с другими моделями. Модель была проверена на уникальном датасете USO-Bench, который содержит три пары (content images, style images, stylized content images), чтобы покрыть широкий спектр сценариев использования. Отчеты показывают, что USO достигает стабильно высокого качества в генерации содержания, которое коррелирует с этими целями.
## Значимость
Модель USO предлагает новый подход к объединению стилистической и тематической генерации в едином фреймворке. Она имеет широкое применение в области глубокого обучения, включая редактирование текста, графический дизайн и творческую генерацию. Одним из основных
Abstract
Existing literature typically treats style-driven and subject-driven
generation as two disjoint tasks: the former prioritizes stylistic similarity,
whereas the latter insists on subject consistency, resulting in an apparent
antagonism. We argue that both objectives can be unified under a single
framework because they ultimately concern the disentanglement and
re-composition of content and style, a long-standing theme in style-driven
research. To this end, we present USO, a Unified Style-Subject Optimized
customization model. First, we construct a large-scale triplet dataset
consisting of content images, style images, and their corresponding stylized
content images. Second, we introduce a disentangled learning scheme that
simultaneously aligns style features and disentangles content from style
through two complementary objectives, style-alignment training and
content-style disentanglement training. Third, we incorporate a style
reward-learning paradigm denoted as SRL to further enhance the model's
performance. Finally, we release USO-Bench, the first benchmark that jointly
evaluates style similarity and subject fidelity across multiple metrics.
Extensive experiments demonstrate that USO achieves state-of-the-art
performance among open-source models along both dimensions of subject
consistency and style similarity. Code and model:
https://github.com/bytedance/USO
Ссылки и действия
Дополнительные ресурсы: