A Novel Image Similarity Metric for Scene Composition Structure

2508.05037v1 cs.CV, cs.IT, math.IT 2025-08-09
Авторы:

Md Redwanul Haque, Manzur Murshed, Manoranjan Paul, Tsz-Kwan Lee

Резюме на русском

**Резюме** В последнее время развитие генерирующих моделей искусственного интеллекта (GenAI) стало важным вызывать новые подходы для оценки качества изображений, которые будут учитывать не только человеческое восприятие, но и геометрическую структуру сцены (Scene Composition Structure, SCS). Эта структура определяет относительные положения, размеры и направления объектов в сцене. Однако существующие метрики качества изображений часто неэффективны в оценке SCS, так как либо слишком чувствительны к мелким изменениям в образом (пиксельные подходы), либо ориентированы на аспекты человеческого восприятия (перцепционные метрики). Мы предлагаем новую метрику — SCS Similarity Index Measure (SCSSIM), которая аналитически оценивает SCS, используя статистические измерения, основанные на хирархичном разбиении изображения на кубические сегменты. SCSSIM проверена на экспериментах, показав высокую сохранность от неизмененных SCS и четкую отрицательную монотонность при изменении SCS. Эта метрика является значительным дополнением к существующим методам для улучшения и оценки GenAI-моделей, обеспечивая надежные способы оценки целостности сцены.

Abstract

The rapid advancement of generative AI models necessitates novel methods for evaluating image quality that extend beyond human perception. A critical concern for these models is the preservation of an image's underlying Scene Composition Structure (SCS), which defines the geometric relationships among objects and the background, their relative positions, sizes, orientations, etc. Maintaining SCS integrity is paramount for ensuring faithful and structurally accurate GenAI outputs. Traditional image similarity metrics often fall short in assessing SCS. Pixel-level approaches are overly sensitive to minor visual noise, while perception-based metrics prioritize human aesthetic appeal, neither adequately capturing structural fidelity. Furthermore, recent neural-network-based metrics introduce training overheads and potential generalization issues. We introduce the SCS Similarity Index Measure (SCSSIM), a novel, analytical, and training-free metric that quantifies SCS preservation by exploiting statistical measures derived from the Cuboidal hierarchical partitioning of images, robustly capturing non-object-based structural relationships. Our experiments demonstrate SCSSIM's high invariance to non-compositional distortions, accurately reflecting unchanged SCS. Conversely, it shows a strong monotonic decrease for compositional distortions, precisely indicating when SCS has been altered. Compared to existing metrics, SCSSIM exhibits superior properties for structural evaluation, making it an invaluable tool for developing and evaluating generative models, ensuring the integrity of scene composition.

Ссылки и действия

Связанные статьи

Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Model...

## Контекст В modern deep learning-based image compression methods achieve сompetitive rate-distortion performance thro...

2025-09-10

Mixture of Balanced Information Bottlenecks for Long-Tailed Visual Recognition

## Контекст Одна из основных проблем в области визуального распознавания данных — это неравномерное распределение классо...

2025-09-05