Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

2508.09131v2 cs.GR, cs.AI, cs.CV 2025-08-14
Авторы:

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

Резюме на русском

#### Контекст Текст-управляемое редактирование цвета изображений и видео является ключевым, но еще не решенным проблемой в области компьютерного зрения. Оно предполагает тонкую манипуляцию цветных атрибутов, таких как призма, цвет источника света и освещение, при этом сохраняя физическую консистенцию в геометрии, материальных свойствах и взаимодействиях света с материалом. Существующие методы, особенно те, которые не требуют обучения, оказываются применимы в широком круге задач, однако часто страдают от недостаточной точности управления цветом и внешних несоответствиям в редактируемых и не редактируемых областях. Целью нашей работы является развитие метода, который обеспечивает точность и консистентность в цветовом редактировании без необходимости тренировочных данных, расширяя при этом возможности методов MM-DiT. #### Метод Мы предлагаем **ColorCtrl**, метод, основанный на трансформерах MM-DiT, который использует их возможности в области внимательного анализа. Наш подход разделяет цвет и структуру изображения с помощью настраиваемых attention maps и value tokens. Это позволяет точно контролировать цвета только в указанных областях, не влияя на остальные части изображения. Эта дискретность достигается за счет особых манипуляций с attention maps, которые делают редактирование точным и управляемым. Благодаря этим усовершенствованиям, ColorCtrl позволяет решать задачи, где требуется как тонкое управление цветом, так и гарантия консистентности в различных редактируемых областях. #### Результаты Мы провели эксперименты на двух стандартных датасетах, SD3 и FLUX.1-dev, чтобы оценить качество редактирования и консистентность. Наши результаты показывают, что ColorCtrl превосходит существующие методы без обучения в плане качества редактирования и консистентности. Мы также сравнили наш метод с коммерческими моделями, такими как FLUX.1 Kontext Max и GPT-4o Image Generation, и показали значительные преимущества в цветовой консистентности и точности. Также мы проверили нашу модель на видеомодели CogVideoX и получили наилучшие результаты в области временной консистентности и стабильности редактирования. Эти результаты подтверждают широкую применимость и высокую производительность ColorCtrl в различных сценариях. #### Значимость Метод ColorCtrl может быть применен в различных областях, таких как визуальные эффекты, редактирование видео, маркетинг и дизайн. Он обеспечивает новый уровень точности и консистентности в цветовом редактировании, что делает его выгодным для профессионального использования. Важное преимущество ColorCtrl заключается в его тренировочно-свободной природе, что упрощает его применение и

Abstract

Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regions. In this work, we present ColorCtrl, a training-free color editing method that leverages the attention mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By disentangling structure and color through targeted manipulation of attention maps and value tokens, our method enables accurate and consistent color editing, along with word-level control of attribute intensity. Our method modifies only the intended regions specified by the prompt, leaving unrelated areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate that ColorCtrl outperforms existing training-free approaches and achieves state-of-the-art performances in both edit quality and consistency. Furthermore, our method surpasses strong commercial models such as FLUX.1 Kontext Max and GPT-4o Image Generation in terms of consistency. When extended to video models like CogVideoX, our approach exhibits greater advantages, particularly in maintaining temporal coherence and editing stability. Finally, our method also generalizes to instruction-based editing diffusion models such as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.

Ссылки и действия