EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing

2509.13399v1 cs.CV, cs.AI, cs.LG 2025-09-19
Авторы:

Tianyu Chen, Yasi Zhang, Zhi Zhang, Peiyu Yu, Shu Wang, Zhendong Wang, Kevin Lin, Xiaofei Wang, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Jianwen Xie, Oscar Leong, Lijuan Wang, Ying Nian Wu, Mingyuan Zhou

Резюме на русском

## Контекст Инструкционно-ориентированное изображение редактирование набирает огромную популярность, но до сих пор остается жизненно важной проблемой полноценное и интерпретируемое оценивание. Существующие методы оценки изображений либо (i) требуют использования точных сравнительных примеров (аналогичных фреймворкам с параллельными тестами), но они имеют ограниченную область применения и биазы от генерируемых моделей, либо (ii) полагаются на нуль-шот виджон-лингвистические модели (VLMs), которые страдают ненадежностью в оценке контентной согласованности, инструкционного соответствия и визуального качества. Разработаны множество новых моделей редактирования, но нет единого, многофункционального фреймворка для точной и гибкой оценки. Мы предлагаем EdiVal-Agent, многофункциональный фреймворк для оценки нового поколения редактирования, который может эффективно анализировать точность и качество редактирования, основываясь на визуальных и семантических признаках. ## Метод EdiVal-Agent представляет собой объектно-центрическую систему для автоматической, масштабируемой и точной оценки редактирования в многошаговом режиме. Строится она на трех основных модулях: (i) декомпозиции изображения на семантические объекты, (ii) генерации контекстно-зависимых инструкций для редактирования и (iii) оценка согласованности формируемого контента, следования инструкциям и визуального качества. Для оценки подчиняется инструкционным моделям с открытым словарем, специально для онтологического понимания и оценки объекта. Для оценки согласованности используется семантический анализ, а для визуального качества — модели предпочтений человека. Модульный подход позволяет плавным интегрированию новых инструментов для улучшения точности и глубины оценки. ## Результаты Мы проверили EdiVal-Agent на 11 моделях редактирования (включая Nano Banana, GPT-Image-1) и 9 типов инструкций в редактировании. Результаты показывают, что наша система предоставляет более адекватные оценки по сравнению с линейным тестированием с параллельными примерами. Данные оценки показали, что оценка согласованности использующихся визуальных моделей с объектно-центричными моделями дает более высокую согласованность с человеческими оценками. Благодаря этому, EdiVal-Agent помогает выявлять проблемы в существующих редактированиях и указывает на пути улучшения моделей в будущем. ## Значимость Мы предлагаем EdiVal-Agent как многофункциональный фреймворк для оценки новых моделей редактирования, который может быть применен в различных сферах, включая искусственные изображения, визуа

Abstract

Instruction-based image editing has advanced rapidly, yet reliable and interpretable evaluation remains a bottleneck. Current protocols either (i) depend on paired reference images -- resulting in limited coverage and inheriting biases from prior generative models -- or (ii) rely solely on zero-shot vision-language models (VLMs), whose prompt-based assessments of instruction following, content consistency, and visual quality are often imprecise. To address this, we introduce EdiVal-Agent, an automated, scalable, and fine-grained evaluation framework for multi-turn instruction-based editing from an object-centric perspective, supported by a suite of expert tools. Given an image, EdiVal-Agent first decomposes it into semantically meaningful objects, then synthesizes diverse, context-aware editing instructions. For evaluation, it integrates VLMs with open-vocabulary object detectors to assess instruction following, uses semantic-level feature extractors to evaluate content consistency, and leverages human preference models to judge visual quality. We show that combining VLMs with object detectors yields stronger agreement with human judgments in instruction-following evaluation compared to using VLMs alone and CLIP-based metrics. Furthermore, the pipeline's modular design allows future tools to be seamlessly integrated, enhancing evaluation accuracy over time. Instantiating this pipeline, we build EdiVal-Bench, a multi-turn editing benchmark covering 9 instruction types and 11 state-of-the-art editing models spanning autoregressive (AR) (including Nano Banana, GPT-Image-1), flow-matching, and diffusion paradigms. We demonstrate that EdiVal-Agent can be used to identify existing failure modes, thereby informing the development of the next generation of editing models. Project page: https://tianyucodings.github.io/EdiVAL-page/.

Ссылки и действия