Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation

2509.21227v1 cs.CV, cs.CL 2025-09-27

Авторы:

Seyed Amir Kasaei, Ali Aghayari, Arash Marioriyad, Niki Sepasian, MohammadAmin Fazli, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban

Резюме на русском

#################### ## Контекст #################### Современные технологии генерации текста и изображений позволяют создавать новые, сложные композиции, объединяя текстовые описания с изображениями. Однако одной из самых сложных проблем в этой области является эффективное оценивание результатов генерации. Известно, что существуют автоматизированные метрики, которые используются для оценки качества генерируемых образов, но их определенность и точность, как правило, не проверяются на соответствии с реальными жизненными оценками. Это может привести к ошибочным выводам о качестве генерируемых изображений. Статья Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation уделяет внимание этой проблеме, призванной улучшить понимание оценочных метрик и их эффективность. Исследование предлагает систематический анализ и сравнение популярных метрик для текстово-изображенческой генерации, чтобы уточнить, какие из них лучше всего отражают реальные потребности пользователей и жизненные оценки. #################### ## Метод #################### Для анализа использовались широкие данные, включающие как стандартные, так и нестандартные текстовые описания и их изображения. Методология основывалась на сравнении различных оценочных метрик, объединявших различные подходы к оценке текстовых изображений, включая метрики визуального понимания вопросов (VQA), глубинные обученные модели и другие алгоритмы. Исследователи провели эксперименты, которые позволили сравнить различные метрики с различными типами задач генерации и подготовили результаты, отражающие точность и предсказуемость метрик. Набор данных был разделен на подвыборки для специального анализа, чтобы уточнить, как метрики воспринимают ключевые аспекты, такие как композиция, атрибуты и отношения в тексте. #################### ## Результаты #################### Полученные результаты показывают, что ни одна метрика не может соответствовать всем задачам создания текстовых изображений. Например, метрики визуального понимания вопросов (VQA), которые широко применяются, не вы most consistent performance. Однако, некоторые метрики, основанные на векторных представлениях изображений и текстов, показали лучшие результаты в определенных типах задач. Было установлено, что метрики специфичные для визуального описания (image-only metrics) не подходят для оценки композиционных аспектов. Эти метрики ориентированы на перцептивное качество, не сочетающееся с эффективной оценкой композиции. #################### ## Значимость #################### Результаты имеют прямое значение для развития текстово-изображенческой генерации. Изучение эффективных метрик позволяет улучшить методы оценки, что влечет за собой лучшую на

Abstract

Text-image generation has advanced rapidly, but assessing whether outputs truly capture the objects, attributes, and relations described in prompts remains a central challenge. Evaluation in this space relies heavily on automated metrics, yet these are often adopted by convention or popularity rather than validated against human judgment. Because evaluation and reported progress in the field depend directly on these metrics, it is critical to understand how well they reflect human preferences. To address this, we present a broad study of widely used metrics for compositional text-image evaluation. Our analysis goes beyond simple correlation, examining their behavior across diverse compositional challenges and comparing how different metric families align with human judgments. The results show that no single metric performs consistently across tasks: performance varies with the type of compositional problem. Notably, VQA-based metrics, though popular, are not uniformly superior, while certain embedding-based metrics prove stronger in specific cases. Image-only metrics, as expected, contribute little to compositional evaluation, as they are designed for perceptual quality rather than alignment. These findings underscore the importance of careful and transparent metric selection, both for trustworthy evaluation and for their use as reward models in generation. Project page is available at \href{https://amirkasaei.com/eval-the-evals/}{this URL}.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация