A Novel Image Similarity Metric for Scene Composition Structure
2508.05037v1
cs.CV, cs.IT, math.IT
2025-08-09
Авторы:
Md Redwanul Haque, Manzur Murshed, Manoranjan Paul, Tsz-Kwan Lee
Резюме на русском
**Резюме**
В последнее время развитие генерирующих моделей искусственного интеллекта (GenAI) стало важным вызывать новые подходы для оценки качества изображений, которые будут учитывать не только человеческое восприятие, но и геометрическую структуру сцены (Scene Composition Structure, SCS). Эта структура определяет относительные положения, размеры и направления объектов в сцене. Однако существующие метрики качества изображений часто неэффективны в оценке SCS, так как либо слишком чувствительны к мелким изменениям в образом (пиксельные подходы), либо ориентированы на аспекты человеческого восприятия (перцепционные метрики). Мы предлагаем новую метрику — SCS Similarity Index Measure (SCSSIM), которая аналитически оценивает SCS, используя статистические измерения, основанные на хирархичном разбиении изображения на кубические сегменты. SCSSIM проверена на экспериментах, показав высокую сохранность от неизмененных SCS и четкую отрицательную монотонность при изменении SCS. Эта метрика является значительным дополнением к существующим методам для улучшения и оценки GenAI-моделей, обеспечивая надежные способы оценки целостности сцены.
Abstract
The rapid advancement of generative AI models necessitates novel methods for
evaluating image quality that extend beyond human perception. A critical
concern for these models is the preservation of an image's underlying Scene
Composition Structure (SCS), which defines the geometric relationships among
objects and the background, their relative positions, sizes, orientations, etc.
Maintaining SCS integrity is paramount for ensuring faithful and structurally
accurate GenAI outputs. Traditional image similarity metrics often fall short
in assessing SCS. Pixel-level approaches are overly sensitive to minor visual
noise, while perception-based metrics prioritize human aesthetic appeal,
neither adequately capturing structural fidelity. Furthermore, recent
neural-network-based metrics introduce training overheads and potential
generalization issues. We introduce the SCS Similarity Index Measure (SCSSIM),
a novel, analytical, and training-free metric that quantifies SCS preservation
by exploiting statistical measures derived from the Cuboidal hierarchical
partitioning of images, robustly capturing non-object-based structural
relationships. Our experiments demonstrate SCSSIM's high invariance to
non-compositional distortions, accurately reflecting unchanged SCS. Conversely,
it shows a strong monotonic decrease for compositional distortions, precisely
indicating when SCS has been altered. Compared to existing metrics, SCSSIM
exhibits superior properties for structural evaluation, making it an invaluable
tool for developing and evaluating generative models, ensuring the integrity of
scene composition.
Ссылки и действия
Дополнительные ресурсы: