AnatoMaskGAN: GNN-Driven Slice Feature Fusion and Noise Augmentation for Medical Semantic Image Synthesis
2508.11375v1
eess.IV, cs.CV, I.4.9
2025-08-19
Авторы:
Zonglin Wu, Yule Xue, Qianxiang Hu, Yaoyao Feng, Yuqi Ma, Shanxiong Chen
Резюме на русском
#### Контекст
Синтез семантических масок в медицинских изображениях является важной задачей, которая играет ключевую роль в данных для анализа и повышении точности обработки изображений. Несмотря на прогресс в генеративных нейронных сетях (GAN), существующие подходы часто сталкиваются с проблемами, такими как недостаточная спецификация пространственных зависимостей и недостаточная нагрузка на реалистичность изображений. Эти ограничения приводят к ограниченной точности и недостаточному уровню подробности в синтезированных масках. Эти проблемы являются мотивацией для разработки новых методов, которые могут компенсировать эти ограничения и улучшить качество синтеза.
#### Метод
Мы предлагаем AnatoMaskGAN, многослойный фреймворк, который включает в себя несколько инновационных компонентов. В первую очередь, мы разработали модуль для сильно связанной функции слияния специфичности слоёв на основе графов (GNN), который моделирует пространственные отношения между слоями интегрируя информацию из соседних слоёв. Это позволяет улучшить локальную и глобальную структуру. Далее, мы предложили 3D-стратегию внедрения шума, которая учитывает различные варианты структуры и внедряет в генерируемые изображения шум с разными весами, чтобы увеличить широту моделирования. Наконец, мы внедрили классификатор текстур, который оптимизирует гистограмму и текстурные характеристики в процессе синтеза. Эти компоненты объединены в единое целое, чтобы обеспечить более точный и реалистичный синтез масок.
#### Результаты
Мы проверили AnatoMaskGAN на двух открытых наборах данных: L2R-OASIS и L2R-Abdomen CT. На L2R-OASIS, наша модель показала PSNR равный 26.50 dB, что является 0.43 dB выше текущего состояния техники. На L2R-Abdomen CT, мы достигли SSIM в размере 0.8602, что является 0.48 процентной единицей выше результатов лучшей модели. Эти результаты показывают, что AnatoMaskGAN превосходит современные подходы в точности воспроизведения и качестве перцепции. Анализ абляции показал, что каждый компонент фреймворка (GNN-функция слияния специфичности слоёв, 3D-шумоввод и текстовый классификатор) вносит значительный вклад в улучшение PSNR, SSIM и LPIPS.
#### Значимость
AnatoMaskGAN может применяться в различных областях, включая данные для обучения и анализа медицинских изображений. Его преимущество заключается в том, что он предлагает более реалистичные и точные маски, что повышает качество данных для обучения и улучшает точность диагностических процессов. Благодаря инновационной архитектуре и высокому качеству синтеза, AnatoMask
Abstract
Medical semantic-mask synthesis boosts data augmentation and analysis, yet
most GAN-based approaches still produce one-to-one images and lack spatial
consistency in complex scans. To address this, we propose AnatoMaskGAN, a novel
synthesis framework that embeds slice-related spatial features to precisely
aggregate inter-slice contextual dependencies, introduces diverse
image-augmentation strategies, and optimizes deep feature learning to improve
performance on complex medical images. Specifically, we design a GNN-based
strongly correlated slice-feature fusion module to model spatial relationships
between slices and integrate contextual information from neighboring slices,
thereby capturing anatomical details more comprehensively; we introduce a
three-dimensional spatial noise-injection strategy that weights and fuses
spatial features with noise to enhance modeling of structural diversity; and we
incorporate a grayscale-texture classifier to optimize grayscale distribution
and texture representation during generation. Extensive experiments on the
public L2R-OASIS and L2R-Abdomen CT datasets show that AnatoMaskGAN raises PSNR
on L2R-OASIS to 26.50 dB (0.43 dB higher than the current state of the art) and
achieves an SSIM of 0.8602 on L2R-Abdomen CT--a 0.48 percentage-point gain over
the best model, demonstrating its superiority in reconstruction accuracy and
perceptual quality. Ablation studies that successively remove the slice-feature
fusion module, spatial 3D noise-injection strategy, and grayscale-texture
classifier reveal that each component contributes significantly to PSNR, SSIM,
and LPIPS, further confirming the independent value of each core design in
enhancing reconstruction accuracy and perceptual quality.
Ссылки и действия
Дополнительные ресурсы: