Image Realness Assessment and Localization with Multimodal Features

2509.13289v1 cs.CV, eess.IV 2025-09-18
Авторы:

Lovish Kaushik, Agnij Biswas, Somdyuti Paul

Резюме на русском

#### Контекст В последние годы становление искусственного интеллекта продвигает границы возможностей в области генерирования изображений. Однако одной из главных проблем генерирующих алгоритмов является несовершенство в производстве реалистичных изображений. Несовместимые области в изображениях могут ослабить их первоначальную концепцию, что негативно сказывается на их применении в практических задачах. Было бы полезно иметь метод, который не только оценивал реалистичность изображения в целом, но также позволял идентифицировать изображения, содержащие несовпадающие сегменты. Это способствовало бы улучшению качества изображений в технологиях визуального генерирования и их более устойчивому внедрению в жизненные ситуации. #### Метод Предлагаемый метод основывается на визуально-языковых моделях, обученных на больших наборах данных. Эти модели производят текстовые описания несовместимых областей в изображениях. Их выводы используются для оценки реальности в целом и для распознавания несовпадающих регионов в изображениях. Основная часть фреймворка состоит в применении текстовых меток для определения таких регионов, чтобы получить карты реальности, которые могут быть использованы для деконструкции изображений и идентификации несовместимых сегментов. Изучаемые модели создают текстовую модель, которая понимает значимость каждого региона в изображении, и оценивает его реальность. #### Результаты Опытные тесты показали, что прогнозы реальности, основанные на предложенном подходе, демонстрируют высокую точность по сравнению с другими методами. Также в работе показаны карты реальности, которые позволяют определить наиболее несовместимые регионы в изображении. Эти карты могут использоваться для повышения качества генерирующих алгоритмов, благодаря тому, что будут использоваться во время обучения для подтверждения реальности. Это дает возможность сделать генерацию изображений более точной и реалистичной. #### Значимость Предложенный подход может применяться в различных областях, включая подтверждение реальности изображений для видеоконференций, фоторедактирования, создания графических эффектов и визуализации. Он дает не только оценку реальности в целом, но и позволяет улучшить реальность регионов, которые необходимо исправить. Эти возможности делают этот подход полезным для развития технологий визуальной генерирования и их интеграции в производственные процессы. #### Выводы В целом, предложенный подход демонстрирует высокую эффективность в оценке реальности изображений и идентификации несовмест

Abstract

A reliable method of quantifying the perceptual realness of AI-generated images and identifying visually inconsistent regions is crucial for practical use of AI-generated images and for improving photorealism of generative AI via realness feedback during training. This paper introduces a framework that accomplishes both overall objective realness assessment and local inconsistency identification of AI-generated images using textual descriptions of visual inconsistencies generated by vision-language models trained on large datasets that serve as reliable substitutes for human annotations. Our results demonstrate that the proposed multimodal approach improves objective realness prediction performance and produces dense realness maps that effectively distinguish between realistic and unrealistic spatial regions.

Ссылки и действия