Image Realness Assessment and Localization with Multimodal Features
2509.13289v1
cs.CV, eess.IV
2025-09-18
Авторы:
Lovish Kaushik, Agnij Biswas, Somdyuti Paul
Резюме на русском
#### Контекст
В последние годы становление искусственного интеллекта продвигает границы возможностей в области генерирования изображений. Однако одной из главных проблем генерирующих алгоритмов является несовершенство в производстве реалистичных изображений. Несовместимые области в изображениях могут ослабить их первоначальную концепцию, что негативно сказывается на их применении в практических задачах. Было бы полезно иметь метод, который не только оценивал реалистичность изображения в целом, но также позволял идентифицировать изображения, содержащие несовпадающие сегменты. Это способствовало бы улучшению качества изображений в технологиях визуального генерирования и их более устойчивому внедрению в жизненные ситуации.
#### Метод
Предлагаемый метод основывается на визуально-языковых моделях, обученных на больших наборах данных. Эти модели производят текстовые описания несовместимых областей в изображениях. Их выводы используются для оценки реальности в целом и для распознавания несовпадающих регионов в изображениях. Основная часть фреймворка состоит в применении текстовых меток для определения таких регионов, чтобы получить карты реальности, которые могут быть использованы для деконструкции изображений и идентификации несовместимых сегментов. Изучаемые модели создают текстовую модель, которая понимает значимость каждого региона в изображении, и оценивает его реальность.
#### Результаты
Опытные тесты показали, что прогнозы реальности, основанные на предложенном подходе, демонстрируют высокую точность по сравнению с другими методами. Также в работе показаны карты реальности, которые позволяют определить наиболее несовместимые регионы в изображении. Эти карты могут использоваться для повышения качества генерирующих алгоритмов, благодаря тому, что будут использоваться во время обучения для подтверждения реальности. Это дает возможность сделать генерацию изображений более точной и реалистичной.
#### Значимость
Предложенный подход может применяться в различных областях, включая подтверждение реальности изображений для видеоконференций, фоторедактирования, создания графических эффектов и визуализации. Он дает не только оценку реальности в целом, но и позволяет улучшить реальность регионов, которые необходимо исправить. Эти возможности делают этот подход полезным для развития технологий визуальной генерирования и их интеграции в производственные процессы.
#### Выводы
В целом, предложенный подход демонстрирует высокую эффективность в оценке реальности изображений и идентификации несовмест
Abstract
A reliable method of quantifying the perceptual realness of AI-generated
images and identifying visually inconsistent regions is crucial for practical
use of AI-generated images and for improving photorealism of generative AI via
realness feedback during training. This paper introduces a framework that
accomplishes both overall objective realness assessment and local inconsistency
identification of AI-generated images using textual descriptions of visual
inconsistencies generated by vision-language models trained on large datasets
that serve as reliable substitutes for human annotations. Our results
demonstrate that the proposed multimodal approach improves objective realness
prediction performance and produces dense realness maps that effectively
distinguish between realistic and unrealistic spatial regions.
Ссылки и действия
Дополнительные ресурсы: