Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation

2509.21257v1 cs.CV, cs.CL 2025-09-27
Авторы:

Seyed Amir Kasaei, Mohammad Hossein Rohban

Резюме на русском

## Контекст Область текстово-изображательных (text-to-image, T2I) генерирующих моделей становится все более важной в современных технологиях, особенно в сфере глубокого обучения. Однако существуют затруднения в точном моделировании и оценке этих моделей. Известно, что модели могут генерировать "халлуцинации", то есть содержимое, которое не сводно данным входным, а скорее вытекает из собственных предрассудков или биаса модели. Халлуцинации в текстово-визуальных задачах в основном исследовались в контексте текстово-генерирующих моделей, но их подход не полностью применим к T2I. Основные методы оценки T2I-моделей сейчас ориентированы на проверку выполнения заданий (например, совпадение элементов с заданным в запросе), но не учитывают то, что модель генерирует за пределами запроса. Это ограничение приводит к недостаточной глубине в оценке моделей. Наша мотивация заключается в развитии более информативной стратегии оценки T2I-моделей, которая учитывает все выходы модели, включая халлуцинации. ## Метод Мы предлагаем новую стратегию оценки T2I-моделей, основанную на расширенном понимании халлуцинаций. Халлуцинация в нашем контексте определяется как генерация содержимого, возникающего из модельных предрассудков, без отношения к запросу пользователя. Мы развиваем подробную таксономию халлуцинаций, разделяя их на три категории: халлуцинации атрибутов (например, присвоение характеристик, не описанных в запросе), халлуцинации отношений (например, присвоение логических связей между элементами) и халлуцинации объектов (например, генерация несуществующих объектов). Эта систематизация позволяет формировать "верхний предел" для оценки, так как максимальная халлуцинация может рассматриваться как значительная негативная ошибка модели. Мы также предлагаем методы для измерения халлуцинаций, включая сравнение модельных выходов с базой данных контрольных выпадений. ## Результаты Мы проводим эксперименты с несколькими T2I-моделями, используя разнообразные запросы и базы данных для измерения халлуцинаций. Наши результаты показывают, что существующие модели часто генерируют высокое количество халлуцинаций, что значительно снижает качество их вывода. Мы также проверяем последние модели, включая те, которые используют новые архитектуры и методы обучения, и выявляем, что даже они не могут полностью избежать халлуцинаций. Наши вычисления показывают, что определение верхнего предела халлуцинаций может дать более точную информацию о модельных ошибках, чем традиционные методы. ## Значимость Н

Abstract

In language and vision-language models, hallucination is broadly understood as content generated from a model's prior knowledge or biases rather than from the given input. While this phenomenon has been studied in those domains, it has not been clearly framed for text-to-image (T2I) generative models. Existing evaluations mainly focus on alignment, checking whether prompt-specified elements appear, but overlook what the model generates beyond the prompt. We argue for defining hallucination in T2I as bias-driven deviations and propose a taxonomy with three categories: attribute, relation, and object hallucinations. This framing introduces an upper bound for evaluation and surfaces hidden biases, providing a foundation for richer assessment of T2I models.

Ссылки и действия