Exploring Palette based Color Guidance in Diffusion Models
2508.08754v1
cs.GR, cs.CV, cs.MM
2025-08-14
Авторы:
Qianru Qiu, Jiafeng Mao, Xueting Wang
Резюме на русском
## Контекст
Современные текстово-изображение (T2I) модели, основанные на архитектуре типа Diffusion, достигли высокого качества генерации изображений. Однако, несмотря на их интуитивность, эти модели испытывают определенные сложности в контролировании цветовых схем в изображениях. Использование текстовых подсказок (prompts) позволяет указывать цвета объектов, но часто недостаточно для комплексного управления цветовой схемой всего изображения, особенно для фоновых элементов и незначительных объектов, которые не явно определены в текстовой композиции. Это приводит к несоответствию между пользовательскими ожиданиями и реальным результатом. Наша мотивация заключается в развитии системы, которая бы позволила более точно и гибко контролировать цветовую схему, особенно для фоновых элементов и незначительных объектов.
## Метод
Мы предлагаем интегрировать цветовые палитры как отдельный механизм управления, который будет работать вместе с текстовыми подсказками. Наш метод включает несколько этапов:
1. **Представление цветовой палитры**: Мы представляем цвета в виде нескольких точек в RGB-пространстве, которые объединены в одну структуру для более точного управления.
2. **Интеграция с текстовыми подсказками**: Мы синхронизируем цветовые палитры с текстовыми подсказками, чтобы обеспечить более синергетическое управление цветовой схемой.
3. **Оптимизация в процессе обучения**: Мы оптимизируем модель в процессе обучения, используя палитру как дополнительный сигнал для улучшения точности и качества генерации.
4. **Специальные данные**: Мы создали набор данных, который включает текстовые подсказки, цветовые палитры и соответствующие изображения, для полного исследования возможностей этого подхода.
## Результаты
Мы провели многочисленные эксперименты для оценки эффективности нашего подхода. Использовались различные данные для тестирования, включая общедоступные и специально подготовленные наборы. Мы измеряли качество генерируемых изображений с помощью метрик, таких как PSNR, SSIM и LPIPS. Наши результаты показали, что использование цветовых палитр в качестве дополнительного управляющего сигнала существенно повышает точность и качество генерации, особенно для фоновых элементов и незначительных объектов. Мы также провели визуальные оценки, подтверждающие, что наш подход обеспечивает более точное соответствие цветовых схем пользовательским ожиданиям.
## Значимость
Наш подход может быть применен в различных областях, таких как графический дизайн, визуализация и искусственное интеллектуальное создание изображений.
Abstract
With the advent of diffusion models, Text-to-Image (T2I) generation has seen
substantial advancements. Current T2I models allow users to specify object
colors using linguistic color names, and some methods aim to personalize
color-object association through prompt learning. However, existing models
struggle to provide comprehensive control over the color schemes of an entire
image, especially for background elements and less prominent objects not
explicitly mentioned in prompts. This paper proposes a novel approach to
enhance color scheme control by integrating color palettes as a separate
guidance mechanism alongside prompt instructions. We investigate the
effectiveness of palette guidance by exploring various palette representation
methods within a diffusion-based image colorization framework. To facilitate
this exploration, we construct specialized palette-text-image datasets and
conduct extensive quantitative and qualitative analyses. Our results
demonstrate that incorporating palette guidance significantly improves the
model's ability to generate images with desired color schemes, enabling a more
controlled and refined colorization process.
Ссылки и действия
Дополнительные ресурсы: