CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

2508.06937v1 cs.CV, cs.AI 2025-08-14
Авторы:

Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang

Резюме на русском

## Контекст Одним из основных направлений развития современных компьютерных технологий является обработка и модификация изображений с помощью текстовых подсказок. Текст-to-image (T2I) модели, основанные на генерирующих признаках фундаментальных моделей, позволяют редактировать изображения, оперируя только текстовыми запросами. Однако существующие системы сталкиваются с проблемами в реализации точных редактирований, сохраняющих контекст исходного изображения и обеспечивающих визуальную непрерывность. Эти ограничения влекут за собой несоответствие требований пользователей, что приводит к нужде в более надежных и эффективных подходах. ## Метод Мы предлагаем CannyEdit, новую систему для текстово-движущегося редактирования изображений, которая работает без необходимости обучения. Основные инновации в CannyEdit: (1) **Selective Canny Control**, который позволяет гибко управлять структурным влиянием генеративных моделей, защищая детали исходных изображений в неизменяемых областях; (2) **Dual-Prompt Guidance**, который включает в себя объединение локальных и глобальных текстовых подсказок для достижения консистентных редактирований с обеспечением отношений в сцене. Это решение использует ControlNet для контроля структуры и инверсии признаков, чтобы обеспечить точность редактирования и сохранить неизменность регионов, не относящихся к редактированию. ## Результаты Для измерения эффективности CannyEdit проведены эксперименты на реальных изображениях с разными редактируемыми сценами: добавлением, заменой и удалением объектов. Метод показал высокую точность в соблюдении текстовых подсказок и сохранении контекста источника, превышая в предыдущих системах, таких как KV-Edit. В результате пользовательских опросов, CannyEdit показал более высокую степень незаметности, чтобы редактирование было выполнено с помощью AI: 49.2% пользователей и 42.0% экспертов AIGC отличили результаты CannyEdit от настоящих изображений, в то время как для KV-Edit этот показатель составил 76.08–89.09%. ## Значимость CannyEdit может быть применен в различных областях, таких как редактирование фотографий, графический дизайн и дизайн визуальных эффектов. Он выделяется своей точностью и гибкостью, превращая текстовые подсказки в точные модификации на изображениях. Более высокий уровень незаметности редактирования и сохранение контекста делают CannyEdit привлекательным для профессионалов, необходимостью в минимальном вмешательстве и простоте в использовании. ## Выводы CannyEdit представляет собой прорыв в области текстово-движущегося редактирования изображений без необходимости обучения. Его высокая точность, гибкость и не

Abstract

Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny ControlNet in user-specified editable regions while strictly preserving details of the source images in unedited areas via inversion-phase ControlNet information retention. This enables precise, text-driven edits without compromising contextual integrity. (2) Dual-Prompt Guidance, which combines local prompts for object-specific edits with a global target prompt to maintain coherent scene interactions. On real-world image editing tasks (addition, replacement, removal), CannyEdit outperforms prior methods like KV-Edit, achieving a 2.93 to 10.49 percent improvement in the balance of text adherence and context fidelity. In terms of editing seamlessness, user studies reveal only 49.2 percent of general users and 42.0 percent of AIGC experts identified CannyEdit's results as AI-edited when paired with real images without edits, versus 76.08 to 89.09 percent for competitor methods.

Ссылки и действия