AnatoMaskGAN: GNN-Driven Slice Feature Fusion and Noise Augmentation for Medical Semantic Image Synthesis

2508.11375v1 eess.IV, cs.CV, I.4.9 2025-08-19

Авторы:

Zonglin Wu, Yule Xue, Qianxiang Hu, Yaoyao Feng, Yuqi Ma, Shanxiong Chen

Резюме на русском

#### Контекст Синтез семантических масок в медицинских изображениях является важной задачей, которая играет ключевую роль в данных для анализа и повышении точности обработки изображений. Несмотря на прогресс в генеративных нейронных сетях (GAN), существующие подходы часто сталкиваются с проблемами, такими как недостаточная спецификация пространственных зависимостей и недостаточная нагрузка на реалистичность изображений. Эти ограничения приводят к ограниченной точности и недостаточному уровню подробности в синтезированных масках. Эти проблемы являются мотивацией для разработки новых методов, которые могут компенсировать эти ограничения и улучшить качество синтеза. #### Метод Мы предлагаем AnatoMaskGAN, многослойный фреймворк, который включает в себя несколько инновационных компонентов. В первую очередь, мы разработали модуль для сильно связанной функции слияния специфичности слоёв на основе графов (GNN), который моделирует пространственные отношения между слоями интегрируя информацию из соседних слоёв. Это позволяет улучшить локальную и глобальную структуру. Далее, мы предложили 3D-стратегию внедрения шума, которая учитывает различные варианты структуры и внедряет в генерируемые изображения шум с разными весами, чтобы увеличить широту моделирования. Наконец, мы внедрили классификатор текстур, который оптимизирует гистограмму и текстурные характеристики в процессе синтеза. Эти компоненты объединены в единое целое, чтобы обеспечить более точный и реалистичный синтез масок. #### Результаты Мы проверили AnatoMaskGAN на двух открытых наборах данных: L2R-OASIS и L2R-Abdomen CT. На L2R-OASIS, наша модель показала PSNR равный 26.50 dB, что является 0.43 dB выше текущего состояния техники. На L2R-Abdomen CT, мы достигли SSIM в размере 0.8602, что является 0.48 процентной единицей выше результатов лучшей модели. Эти результаты показывают, что AnatoMaskGAN превосходит современные подходы в точности воспроизведения и качестве перцепции. Анализ абляции показал, что каждый компонент фреймворка (GNN-функция слияния специфичности слоёв, 3D-шумоввод и текстовый классификатор) вносит значительный вклад в улучшение PSNR, SSIM и LPIPS. #### Значимость AnatoMaskGAN может применяться в различных областях, включая данные для обучения и анализа медицинских изображений. Его преимущество заключается в том, что он предлагает более реалистичные и точные маски, что повышает качество данных для обучения и улучшает точность диагностических процессов. Благодаря инновационной архитектуре и высокому качеству синтеза, AnatoMask

Abstract

Medical semantic-mask synthesis boosts data augmentation and analysis, yet most GAN-based approaches still produce one-to-one images and lack spatial consistency in complex scans. To address this, we propose AnatoMaskGAN, a novel synthesis framework that embeds slice-related spatial features to precisely aggregate inter-slice contextual dependencies, introduces diverse image-augmentation strategies, and optimizes deep feature learning to improve performance on complex medical images. Specifically, we design a GNN-based strongly correlated slice-feature fusion module to model spatial relationships between slices and integrate contextual information from neighboring slices, thereby capturing anatomical details more comprehensively; we introduce a three-dimensional spatial noise-injection strategy that weights and fuses spatial features with noise to enhance modeling of structural diversity; and we incorporate a grayscale-texture classifier to optimize grayscale distribution and texture representation during generation. Extensive experiments on the public L2R-OASIS and L2R-Abdomen CT datasets show that AnatoMaskGAN raises PSNR on L2R-OASIS to 26.50 dB (0.43 dB higher than the current state of the art) and achieves an SSIM of 0.8602 on L2R-Abdomen CT--a 0.48 percentage-point gain over the best model, demonstrating its superiority in reconstruction accuracy and perceptual quality. Ablation studies that successively remove the slice-feature fusion module, spatial 3D noise-injection strategy, and grayscale-texture classifier reveal that each component contributes significantly to PSNR, SSIM, and LPIPS, further confirming the independent value of each core design in enhancing reconstruction accuracy and perceptual quality.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация