Prompt-Guided Patch UNet-VAE with Adversarial Supervision for Adrenal Gland Segmentation in Computed Tomography Medical Images

2509.03188v1 eess.IV, cs.CV 2025-09-05

Авторы:

Hania Ghouse, Muzammil Behzad

Резюме на русском

#### Контекст Определение изображений небольших и неоднородных органов, таких как адренальные железы, в рамках томографических медицинских изображений, представляет собой сложную задачу в силу нескольких факторов. Эти факторы включают классическую несбалансированность классов, недостаточную детализацию пространственного контекста и недостаточную информативность аннотированных данных. Эти ограничения приводят к проблемам в получении точных сегментационных моделей. В этой работе предлагается инновационный подход, который объединяет в себе составляющие вариационной реконструкции, направленной на повышение качества изображений, супервизированную сегментацию и адверсарные техники с использованием патчей для улучшения обобщаемости и точности изображений. Модель включает в себя сочетание технологий вариационного аппарата с техникой UNet, чтобы обеспечить тщательную реконструкцию изображений и получение точных сегментационных масок. #### Метод Ключевым элементом этой модели является использование VAE-UNet структуры, которая занимается объединением двух задач: реконструкции входных патчей и построения сегментационных масок на уровне возвратных воздействий. Данный подход позволяет модели учиться различать анатомические структуры и их аппаратурные особенности. В дополнение, проводится оптимизация тренировочного процесса с помощью инновационной тренировочной схемы, в которой вводятся синтетические патчи, генерируемые из внутреннего латентного пространства модели. Эта схема позволяет модели более устойчиво реагировать на трудности классификации в классических зонах сильной неоднородности. Более того, применяется слой адверсарной супервизии с использованием PatchGAN-стиля, чтобы оценивать реалистичность изображений на уровне патчей. Для повышения точности восприятия изображений используется особый вид реконструкционной функции потерь, основанный на оценках VGG-сети. #### Результаты Эксперименты проводились на данных BTCV, богатых вариациями вида томографических снимков. Модель показала существенное повышение точности сегментации, особенно в зонах, требующих высокой точности, таких как края органов. За счет интеграции генеративно-дискриминативного подхода удалось добиться более высокого качества реконструкции изображений и увеличить выносливость модели в отношении данных, ограниченных аннотациями. Особое внимание уделено изучению влияния разного соотношения синтетических и настоящих патчей в процессе обучения. Это позволило оптимизировать баланс между реалистичностью, разнообразием и анатомической консистентность

Abstract

Segmentation of small and irregularly shaped abdominal organs, such as the adrenal glands in CT imaging, remains a persistent challenge due to severe class imbalance, poor spatial context, and limited annotated data. In this work, we propose a unified framework that combines variational reconstruction, supervised segmentation, and adversarial patch-based feedback to address these limitations in a principled and scalable manner. Our architecture is built upon a VAE-UNet backbone that jointly reconstructs input patches and generates voxel-level segmentation masks, allowing the model to learn disentangled representations of anatomical structure and appearance. We introduce a patch-based training pipeline that selectively injects synthetic patches generated from the learned latent space, and systematically study the effects of varying synthetic-to-real patch ratios during training. To further enhance output fidelity, the framework incorporates perceptual reconstruction loss using VGG features, as well as a PatchGAN-style discriminator for adversarial supervision over spatial realism. Comprehensive experiments on the BTCV dataset demonstrate that our approach improves segmentation accuracy, particularly in boundary-sensitive regions, while maintaining strong reconstruction quality. Our findings highlight the effectiveness of hybrid generative-discriminative training regimes for small-organ segmentation and provide new insights into balancing realism, diversity, and anatomical consistency in data-scarce scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Prompt-Guided Patch UNet-VAE with Adversarial Supervision for Adrenal Gland Segmentation in Computed Tomography Medical Images

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Disentangling Progress in Medical Image Registration: Beyond Trend-Driven Archit...

ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colono...

Content Adaptive Encoding For Interactive Game Streaming

Hard Spatial Gating for Precision-Driven Brain Metastasis Segmentation: Addressi...

Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data

Навигация