CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing
2508.06937v1
cs.CV, cs.AI
2025-08-14
Авторы:
Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
Резюме на русском
## Контекст
Одним из основных направлений развития современных компьютерных технологий является обработка и модификация изображений с помощью текстовых подсказок. Текст-to-image (T2I) модели, основанные на генерирующих признаках фундаментальных моделей, позволяют редактировать изображения, оперируя только текстовыми запросами. Однако существующие системы сталкиваются с проблемами в реализации точных редактирований, сохраняющих контекст исходного изображения и обеспечивающих визуальную непрерывность. Эти ограничения влекут за собой несоответствие требований пользователей, что приводит к нужде в более надежных и эффективных подходах.
## Метод
Мы предлагаем CannyEdit, новую систему для текстово-движущегося редактирования изображений, которая работает без необходимости обучения. Основные инновации в CannyEdit: (1) **Selective Canny Control**, который позволяет гибко управлять структурным влиянием генеративных моделей, защищая детали исходных изображений в неизменяемых областях; (2) **Dual-Prompt Guidance**, который включает в себя объединение локальных и глобальных текстовых подсказок для достижения консистентных редактирований с обеспечением отношений в сцене. Это решение использует ControlNet для контроля структуры и инверсии признаков, чтобы обеспечить точность редактирования и сохранить неизменность регионов, не относящихся к редактированию.
## Результаты
Для измерения эффективности CannyEdit проведены эксперименты на реальных изображениях с разными редактируемыми сценами: добавлением, заменой и удалением объектов. Метод показал высокую точность в соблюдении текстовых подсказок и сохранении контекста источника, превышая в предыдущих системах, таких как KV-Edit. В результате пользовательских опросов, CannyEdit показал более высокую степень незаметности, чтобы редактирование было выполнено с помощью AI: 49.2% пользователей и 42.0% экспертов AIGC отличили результаты CannyEdit от настоящих изображений, в то время как для KV-Edit этот показатель составил 76.08–89.09%.
## Значимость
CannyEdit может быть применен в различных областях, таких как редактирование фотографий, графический дизайн и дизайн визуальных эффектов. Он выделяется своей точностью и гибкостью, превращая текстовые подсказки в точные модификации на изображениях. Более высокий уровень незаметности редактирования и сохранение контекста делают CannyEdit привлекательным для профессионалов, необходимостью в минимальном вмешательстве и простоте в использовании.
## Выводы
CannyEdit представляет собой прорыв в области текстово-движущегося редактирования изображений без необходимости обучения. Его высокая точность, гибкость и не
Abstract
Recent advances in text-to-image (T2I) models have enabled training-free
regional image editing by leveraging the generative priors of foundation
models. However, existing methods struggle to balance text adherence in edited
regions, context fidelity in unedited areas, and seamless integration of edits.
We introduce CannyEdit, a novel training-free framework that addresses these
challenges through two key innovations: (1) Selective Canny Control, which
masks the structural guidance of Canny ControlNet in user-specified editable
regions while strictly preserving details of the source images in unedited
areas via inversion-phase ControlNet information retention. This enables
precise, text-driven edits without compromising contextual integrity. (2)
Dual-Prompt Guidance, which combines local prompts for object-specific edits
with a global target prompt to maintain coherent scene interactions. On
real-world image editing tasks (addition, replacement, removal), CannyEdit
outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent
improvement in the balance of text adherence and context fidelity. In terms of
editing seamlessness, user studies reveal only 49.2 percent of general users
and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited
when paired with real images without edits, versus 76.08 to 89.09 percent for
competitor methods.
Ссылки и действия
Дополнительные ресурсы: