Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation
2509.21227v1
cs.CV, cs.CL
2025-09-27
Авторы:
Seyed Amir Kasaei, Ali Aghayari, Arash Marioriyad, Niki Sepasian, MohammadAmin Fazli, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban
Резюме на русском
####################
## Контекст
####################
Современные технологии генерации текста и изображений позволяют создавать новые, сложные композиции, объединяя текстовые описания с изображениями. Однако одной из самых сложных проблем в этой области является эффективное оценивание результатов генерации. Известно, что существуют автоматизированные метрики, которые используются для оценки качества генерируемых образов, но их определенность и точность, как правило, не проверяются на соответствии с реальными жизненными оценками. Это может привести к ошибочным выводам о качестве генерируемых изображений.
Статья Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation уделяет внимание этой проблеме, призванной улучшить понимание оценочных метрик и их эффективность. Исследование предлагает систематический анализ и сравнение популярных метрик для текстово-изображенческой генерации, чтобы уточнить, какие из них лучше всего отражают реальные потребности пользователей и жизненные оценки.
####################
## Метод
####################
Для анализа использовались широкие данные, включающие как стандартные, так и нестандартные текстовые описания и их изображения. Методология основывалась на сравнении различных оценочных метрик, объединявших различные подходы к оценке текстовых изображений, включая метрики визуального понимания вопросов (VQA), глубинные обученные модели и другие алгоритмы.
Исследователи провели эксперименты, которые позволили сравнить различные метрики с различными типами задач генерации и подготовили результаты, отражающие точность и предсказуемость метрик. Набор данных был разделен на подвыборки для специального анализа, чтобы уточнить, как метрики воспринимают ключевые аспекты, такие как композиция, атрибуты и отношения в тексте.
####################
## Результаты
####################
Полученные результаты показывают, что ни одна метрика не может соответствовать всем задачам создания текстовых изображений. Например, метрики визуального понимания вопросов (VQA), которые широко применяются, не вы most consistent performance. Однако, некоторые метрики, основанные на векторных представлениях изображений и текстов, показали лучшие результаты в определенных типах задач.
Было установлено, что метрики специфичные для визуального описания (image-only metrics) не подходят для оценки композиционных аспектов. Эти метрики ориентированы на перцептивное качество, не сочетающееся с эффективной оценкой композиции.
####################
## Значимость
####################
Результаты имеют прямое значение для развития текстово-изображенческой генерации. Изучение эффективных метрик позволяет улучшить методы оценки, что влечет за собой лучшую на
Abstract
Text-image generation has advanced rapidly, but assessing whether outputs
truly capture the objects, attributes, and relations described in prompts
remains a central challenge. Evaluation in this space relies heavily on
automated metrics, yet these are often adopted by convention or popularity
rather than validated against human judgment. Because evaluation and reported
progress in the field depend directly on these metrics, it is critical to
understand how well they reflect human preferences. To address this, we present
a broad study of widely used metrics for compositional text-image evaluation.
Our analysis goes beyond simple correlation, examining their behavior across
diverse compositional challenges and comparing how different metric families
align with human judgments. The results show that no single metric performs
consistently across tasks: performance varies with the type of compositional
problem. Notably, VQA-based metrics, though popular, are not uniformly
superior, while certain embedding-based metrics prove stronger in specific
cases. Image-only metrics, as expected, contribute little to compositional
evaluation, as they are designed for perceptual quality rather than alignment.
These findings underscore the importance of careful and transparent metric
selection, both for trustworthy evaluation and for their use as reward models
in generation. Project page is available at
\href{https://amirkasaei.com/eval-the-evals/}{this URL}.
Ссылки и действия
Дополнительные ресурсы: