SpotEdit: Evaluating Visually-Guided Image Editing Methods

2508.18159v1 cs.CV, cs.LG 2025-08-27
Авторы:

Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer

Резюме на русском

## Контекст Визуально-гидованные методы редактирования изображений, которые основываются на визуальных сигналах и текстовых стимулах, стали мощным инструментом для тонкого и контролируемого создания контента. Несмотря на впечатляющие достижения современных генерирующих моделей, существующие методы оценки недостаточно представляют собой реальных вызовов в реальном мире. Они либо ограничиваются одним типом генерирующей модели, либо проводят тестирование на небольших датасетах. Это приводит к недостаточной глубине и объему оценки. Мы предлагаем SpotEdit — подробный бенчмарк для систематической оценки методов визуально-гидованного редактирования изображений. Он охватывает разные типы моделей, включая diffusion, autoregressive и hybrid. Наши результаты показывают существенные различия в производительности между моделями и даже внутри одной модели на разных наборах данных. Также включена компонента, посвященная проблеме hallucination, чтобы раскрыть ошибки, обнаруженные в моделях типа GPT-4, которые визуально неверно интерпретируют изображений и выполняют редактирование. ## Метод SpotEdit представляет собой новый бенчмарк, разработанный для оценки визуально-гидованных методов редактирования изображений. Он содержит три основных компонента: 1. **Edits-in-Context**: Набор задач редактирования, включающий три группы — простые, сложные и противоречивые — для охвата широкого спектра сложностей. 2. **Hallucination Evaluation**: Отдельный компонент, оценивающий ошибки моделей в интерпретации визуальных сигналов. Он выявляет ситуации, когда модель выполняет редактирование, хотя нужного визуального сигнала отсутствует. 3. **Benchmarking Across Models**: Мы оценили SpotEdit на трех видах генерирующих моделей: diffusion, autoregressive и hybrid. Это позволяет сравнивать производительность различных подходов и понимать, в каких ситуациях они выигрывают. ## Результаты Мы проводили эксперименты на SpotEdit с помощью трех моделей: DALL-E 2, SD-2, и Stable Diffusion. Результаты показали существенные различия в производительности между моделями. Например, DALL-E 2 показала высокую точность в простых сценариях, но существенно упала в сложных сценариях. SD-2, в свою очередь, показала более стабильные результаты, но все же не совсем справилась с противоречивыми задачами. Модели hybrid показали самые высокие результаты во всех типах задач, но все равно подвергались ошибкам в редких случаях. Анализ на компоненте Hallucination показал, что модели GPT-4 часто визуально неверно интерпретируют изображения, что приводит к некорректному выполнению задачи. ## Значимость SpotEdit предоставляет систематический подход к оценке визуально-ги

Abstract

Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.

Ссылки и действия