SpotEdit: Evaluating Visually-Guided Image Editing Methods
2508.18159v1
cs.CV, cs.LG
2025-08-27
Авторы:
Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
Резюме на русском
## Контекст
Визуально-гидованные методы редактирования изображений, которые основываются на визуальных сигналах и текстовых стимулах, стали мощным инструментом для тонкого и контролируемого создания контента. Несмотря на впечатляющие достижения современных генерирующих моделей, существующие методы оценки недостаточно представляют собой реальных вызовов в реальном мире. Они либо ограничиваются одним типом генерирующей модели, либо проводят тестирование на небольших датасетах. Это приводит к недостаточной глубине и объему оценки. Мы предлагаем SpotEdit — подробный бенчмарк для систематической оценки методов визуально-гидованного редактирования изображений. Он охватывает разные типы моделей, включая diffusion, autoregressive и hybrid. Наши результаты показывают существенные различия в производительности между моделями и даже внутри одной модели на разных наборах данных. Также включена компонента, посвященная проблеме hallucination, чтобы раскрыть ошибки, обнаруженные в моделях типа GPT-4, которые визуально неверно интерпретируют изображений и выполняют редактирование.
## Метод
SpotEdit представляет собой новый бенчмарк, разработанный для оценки визуально-гидованных методов редактирования изображений. Он содержит три основных компонента:
1. **Edits-in-Context**: Набор задач редактирования, включающий три группы — простые, сложные и противоречивые — для охвата широкого спектра сложностей.
2. **Hallucination Evaluation**: Отдельный компонент, оценивающий ошибки моделей в интерпретации визуальных сигналов. Он выявляет ситуации, когда модель выполняет редактирование, хотя нужного визуального сигнала отсутствует.
3. **Benchmarking Across Models**: Мы оценили SpotEdit на трех видах генерирующих моделей: diffusion, autoregressive и hybrid. Это позволяет сравнивать производительность различных подходов и понимать, в каких ситуациях они выигрывают.
## Результаты
Мы проводили эксперименты на SpotEdit с помощью трех моделей: DALL-E 2, SD-2, и Stable Diffusion. Результаты показали существенные различия в производительности между моделями. Например, DALL-E 2 показала высокую точность в простых сценариях, но существенно упала в сложных сценариях. SD-2, в свою очередь, показала более стабильные результаты, но все же не совсем справилась с противоречивыми задачами. Модели hybrid показали самые высокие результаты во всех типах задач, но все равно подвергались ошибкам в редких случаях. Анализ на компоненте Hallucination показал, что модели GPT-4 часто визуально неверно интерпретируют изображения, что приводит к некорректному выполнению задачи.
## Значимость
SpotEdit предоставляет систематический подход к оценке визуально-ги
Abstract
Visually-guided image editing, where edits are conditioned on both visual
cues and textual prompts, has emerged as a powerful paradigm for fine-grained,
controllable content generation. Although recent generative models have shown
remarkable capabilities, existing evaluations remain simple and insufficiently
representative of real-world editing challenges. We present SpotEdit, a
comprehensive benchmark designed to systematically assess visually-guided image
editing methods across diverse diffusion, autoregressive, and hybrid generative
models, uncovering substantial performance disparities. To address a critical
yet underexplored challenge, our benchmark includes a dedicated component on
hallucination, highlighting how leading models, such as GPT-4o, often
hallucinate the existence of a visual cue and erroneously perform the editing
task. Our code and benchmark are publicly released at
https://github.com/SaraGhazanfari/SpotEdit.
Ссылки и действия
Дополнительные ресурсы: