Prompt-Guided Patch UNet-VAE with Adversarial Supervision for Adrenal Gland Segmentation in Computed Tomography Medical Images
2509.03188v1
eess.IV, cs.CV
2025-09-05
Авторы:
Hania Ghouse, Muzammil Behzad
Резюме на русском
#### Контекст
Определение изображений небольших и неоднородных органов, таких как адренальные железы, в рамках томографических медицинских изображений, представляет собой сложную задачу в силу нескольких факторов. Эти факторы включают классическую несбалансированность классов, недостаточную детализацию пространственного контекста и недостаточную информативность аннотированных данных. Эти ограничения приводят к проблемам в получении точных сегментационных моделей. В этой работе предлагается инновационный подход, который объединяет в себе составляющие вариационной реконструкции, направленной на повышение качества изображений, супервизированную сегментацию и адверсарные техники с использованием патчей для улучшения обобщаемости и точности изображений. Модель включает в себя сочетание технологий вариационного аппарата с техникой UNet, чтобы обеспечить тщательную реконструкцию изображений и получение точных сегментационных масок.
#### Метод
Ключевым элементом этой модели является использование VAE-UNet структуры, которая занимается объединением двух задач: реконструкции входных патчей и построения сегментационных масок на уровне возвратных воздействий. Данный подход позволяет модели учиться различать анатомические структуры и их аппаратурные особенности. В дополнение, проводится оптимизация тренировочного процесса с помощью инновационной тренировочной схемы, в которой вводятся синтетические патчи, генерируемые из внутреннего латентного пространства модели. Эта схема позволяет модели более устойчиво реагировать на трудности классификации в классических зонах сильной неоднородности. Более того, применяется слой адверсарной супервизии с использованием PatchGAN-стиля, чтобы оценивать реалистичность изображений на уровне патчей. Для повышения точности восприятия изображений используется особый вид реконструкционной функции потерь, основанный на оценках VGG-сети.
#### Результаты
Эксперименты проводились на данных BTCV, богатых вариациями вида томографических снимков. Модель показала существенное повышение точности сегментации, особенно в зонах, требующих высокой точности, таких как края органов. За счет интеграции генеративно-дискриминативного подхода удалось добиться более высокого качества реконструкции изображений и увеличить выносливость модели в отношении данных, ограниченных аннотациями. Особое внимание уделено изучению влияния разного соотношения синтетических и настоящих патчей в процессе обучения. Это позволило оптимизировать баланс между реалистичностью, разнообразием и анатомической консистентность
Abstract
Segmentation of small and irregularly shaped abdominal organs, such as the
adrenal glands in CT imaging, remains a persistent challenge due to severe
class imbalance, poor spatial context, and limited annotated data. In this
work, we propose a unified framework that combines variational reconstruction,
supervised segmentation, and adversarial patch-based feedback to address these
limitations in a principled and scalable manner. Our architecture is built upon
a VAE-UNet backbone that jointly reconstructs input patches and generates
voxel-level segmentation masks, allowing the model to learn disentangled
representations of anatomical structure and appearance. We introduce a
patch-based training pipeline that selectively injects synthetic patches
generated from the learned latent space, and systematically study the effects
of varying synthetic-to-real patch ratios during training. To further enhance
output fidelity, the framework incorporates perceptual reconstruction loss
using VGG features, as well as a PatchGAN-style discriminator for adversarial
supervision over spatial realism. Comprehensive experiments on the BTCV dataset
demonstrate that our approach improves segmentation accuracy, particularly in
boundary-sensitive regions, while maintaining strong reconstruction quality.
Our findings highlight the effectiveness of hybrid generative-discriminative
training regimes for small-organ segmentation and provide new insights into
balancing realism, diversity, and anatomical consistency in data-scarce
scenarios.
Ссылки и действия
Дополнительные ресурсы: