Exploring Palette based Color Guidance in Diffusion Models

2508.08754v1 cs.GR, cs.CV, cs.MM 2025-08-14
Авторы:

Qianru Qiu, Jiafeng Mao, Xueting Wang

Резюме на русском

## Контекст Современные текстово-изображение (T2I) модели, основанные на архитектуре типа Diffusion, достигли высокого качества генерации изображений. Однако, несмотря на их интуитивность, эти модели испытывают определенные сложности в контролировании цветовых схем в изображениях. Использование текстовых подсказок (prompts) позволяет указывать цвета объектов, но часто недостаточно для комплексного управления цветовой схемой всего изображения, особенно для фоновых элементов и незначительных объектов, которые не явно определены в текстовой композиции. Это приводит к несоответствию между пользовательскими ожиданиями и реальным результатом. Наша мотивация заключается в развитии системы, которая бы позволила более точно и гибко контролировать цветовую схему, особенно для фоновых элементов и незначительных объектов. ## Метод Мы предлагаем интегрировать цветовые палитры как отдельный механизм управления, который будет работать вместе с текстовыми подсказками. Наш метод включает несколько этапов: 1. **Представление цветовой палитры**: Мы представляем цвета в виде нескольких точек в RGB-пространстве, которые объединены в одну структуру для более точного управления. 2. **Интеграция с текстовыми подсказками**: Мы синхронизируем цветовые палитры с текстовыми подсказками, чтобы обеспечить более синергетическое управление цветовой схемой. 3. **Оптимизация в процессе обучения**: Мы оптимизируем модель в процессе обучения, используя палитру как дополнительный сигнал для улучшения точности и качества генерации. 4. **Специальные данные**: Мы создали набор данных, который включает текстовые подсказки, цветовые палитры и соответствующие изображения, для полного исследования возможностей этого подхода. ## Результаты Мы провели многочисленные эксперименты для оценки эффективности нашего подхода. Использовались различные данные для тестирования, включая общедоступные и специально подготовленные наборы. Мы измеряли качество генерируемых изображений с помощью метрик, таких как PSNR, SSIM и LPIPS. Наши результаты показали, что использование цветовых палитр в качестве дополнительного управляющего сигнала существенно повышает точность и качество генерации, особенно для фоновых элементов и незначительных объектов. Мы также провели визуальные оценки, подтверждающие, что наш подход обеспечивает более точное соответствие цветовых схем пользовательским ожиданиям. ## Значимость Наш подход может быть применен в различных областях, таких как графический дизайн, визуализация и искусственное интеллектуальное создание изображений.

Abstract

With the advent of diffusion models, Text-to-Image (T2I) generation has seen substantial advancements. Current T2I models allow users to specify object colors using linguistic color names, and some methods aim to personalize color-object association through prompt learning. However, existing models struggle to provide comprehensive control over the color schemes of an entire image, especially for background elements and less prominent objects not explicitly mentioned in prompts. This paper proposes a novel approach to enhance color scheme control by integrating color palettes as a separate guidance mechanism alongside prompt instructions. We investigate the effectiveness of palette guidance by exploring various palette representation methods within a diffusion-based image colorization framework. To facilitate this exploration, we construct specialized palette-text-image datasets and conduct extensive quantitative and qualitative analyses. Our results demonstrate that incorporating palette guidance significantly improves the model's ability to generate images with desired color schemes, enabling a more controlled and refined colorization process.

Ссылки и действия

Связанные статьи

ArchGPT: Understanding the World's Architectures with Large Multimodal Models

## Контекст Архитектура является не только функциональным элементом жизни людей, но и творческим и культурным явлением,...

2025-09-27

Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting

Заголовок: Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting В последние годы 3D Gaussian Splatting (3D...

2025-08-09

Laplacian Analysis Meets Dynamics Modelling: Gaussian Splatting for 4D Reconstru...

Метод Лапласа, применяемый к динамическим сценам, предлагает решение проблем, связанных с низким разрешением и коллизиям...

2025-08-09