USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

2508.18966v1 cs.CV, cs.LG 2025-08-28
Авторы:

Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

Резюме на русском

## Контекст Изучение генерируемых стилистическими и тематическими ограничениями возникает во многих областях, включая глубокое обучение, графический дизайн, творческий текст и визуальный контент. Наиболее типичным является два разных подхода: стилистическая модель создает содержимое, сохраняя стилевую согласованность, в то время как тематическая модель сохраняет консистентность субъекта. Однако, подходы типично рассматриваются как взаимоисключающие, что создает проблему в создании моделей, способных одновременно обеспечить глубину содержания и стилевых компонентов. Эта проблема характеризуется взаимной антагонистичностью этих целей, которая часто приводит к взаимной потере качества. Существующие модели стилистической и тематической генерации обычно требуют переобучения или ручной коррекции, чтобы достичь приемлемого результата. Этот факт является мотивацией для разработки модели, которая может объединить эти две цели в единое решение. ## Метод Модель USO предлагает создать единый подход к обработке стилистических и тематических задач. Для этого предлагается разделять содержание и стиль, а затем рекомпонировать их в соответствии с конкретными потребностями. Основной инновацией является использование трехзвенной структуры модели: 1. **Дисентangling Scheme**: Эта часть состоит из двух подходов — style-alignment training и content-style disentanglement training, которые работают сплошной системой, чтобы обеспечить глубину анализа и композиции стиля и содержания. 2. **Style Reward Learning**: Это описано как SRL — Style Reward Learning, которое используется для оптимизации результатов, учитывая тематические и стилевые характеристики. 3. **USO-Bench**: Новая модель предлагается для оценки совместного эффекта стиля и содержания, а также для предоставления полного бенчмарка для сравнения различных моделей. ## Результаты Проведенные эксперименты показывают, что USO не только показывает высокую точность в выполнении задач стилистической и тематической генерации, но и достигает новых рекордов в сравнении с другими моделями. Модель была проверена на уникальном датасете USO-Bench, который содержит три пары (content images, style images, stylized content images), чтобы покрыть широкий спектр сценариев использования. Отчеты показывают, что USO достигает стабильно высокого качества в генерации содержания, которое коррелирует с этими целями. ## Значимость Модель USO предлагает новый подход к объединению стилистической и тематической генерации в едином фреймворке. Она имеет широкое применение в области глубокого обучения, включая редактирование текста, графический дизайн и творческую генерацию. Одним из основных

Abstract

Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO

Ссылки и действия