Perceptual Evaluation of GANs and Diffusion Models for Generating X-rays

2508.07128v1 cs.CV, cs.AI 2025-08-13
Авторы:

Gregory Schuit, Denis Parra, Cecilia Besa

Резюме на русском

#### Контекст Генерирующие изображения модели, такие как генерирующие адверсарные сети (GANs) и модели диффузии (DMs), показали свою эффективность в области генерирования изображений, включая медицинскую имеджинг. В частности, это относится к области радиологии, где синтетические изображения могут устранить проблему нехватки данных, особенно для редких заболеваний, которые снижают эффективность AI-based диагностики и сегментации. Однако остаются вопросы относительно качества синтетических изображений и их клинической полезности. Недостаточное генерирование может снизить универсальность моделей и их доверие. Наше исследование фокусируется на оценке эффективности GANs и DMs в синтезе X-ray изображений, особенно для таких аномалий, как Atelectasis (AT), Lung Opacity (LO), Pleural Effusion (PE), и Enlarged Cardiac Silhouette (ECS). Мы проводим читательское исследование с участием радиологов разных уровней опыта, чтобы изучить качество синтетических изображений в сравнении с реальными. #### Метод Мы создали бенчмарк, который включал реальные X-ray изображения из датасета MIMIC-CXR и синтетические изображения, генерируемые GANs и DMs. Эти изображения были упорядочены по четырём классам аномалий. Мы провели читательское исследование с участием трёх радиологов разных уровней опыта. Участники должны были отличить реальные от синтетических изображений и оценить согласованность визуальных признаков с фокусируемой аномалией. Мы использовали метрики, такие как точность распознавания и чувствительность, чтобы измерить качество моделей. Также, мы проанализировали визуальные критерии, которые помогали радиологам выявить синтетические изображения. #### Результаты Наши результаты показали, что DMs генерируют более реалистичные изображения в целом, особенно для пространственных деталей и общей имитации естественного шума. Однако GANs показали лучшую точность в определении конкретных условий, таких как отсутствие ECS. Мы также выявили визуальные признаки, помогающие радиологам отличать синтетические изображения, такие как неестественная текстура и несогласованность в локализации. Эти результаты показывают, что GANs и DMs имеют дополнительные сильные стороны и могут быть использованы вместе для повышения качества синтетических данных в AI-системах. #### Значимость Наше исследование выявило важное применение GANs и DMs в производстве синтетических изображений для обучения AI-систем в радиологии. Мы показали, что DMs могут использоваться для широкой генерации качественных изображений, в то время как GANs могут специализироваться в накладываемых задачах. Э

Abstract

Generative image models have achieved remarkable progress in both natural and medical imaging. In the medical context, these techniques offer a potential solution to data scarcity-especially for low-prevalence anomalies that impair the performance of AI-driven diagnostic and segmentation tools. However, questions remain regarding the fidelity and clinical utility of synthetic images, since poor generation quality can undermine model generalizability and trust. In this study, we evaluate the effectiveness of state-of-the-art generative models-Generative Adversarial Networks (GANs) and Diffusion Models (DMs)-for synthesizing chest X-rays conditioned on four abnormalities: Atelectasis (AT), Lung Opacity (LO), Pleural Effusion (PE), and Enlarged Cardiac Silhouette (ECS). Using a benchmark composed of real images from the MIMIC-CXR dataset and synthetic images from both GANs and DMs, we conducted a reader study with three radiologists of varied experience. Participants were asked to distinguish real from synthetic images and assess the consistency between visual features and the target abnormality. Our results show that while DMs generate more visually realistic images overall, GANs can report better accuracy for specific conditions, such as absence of ECS. We further identify visual cues radiologists use to detect synthetic images, offering insights into the perceptual gaps in current models. These findings underscore the complementary strengths of GANs and DMs and point to the need for further refinement to ensure generative models can reliably augment training datasets for AI diagnostic systems.

Ссылки и действия