Comparative Analysis of GAN and Diffusion for MRI-to-CT translation

2509.22049v1 eess.IV, cs.CV, cs.LG 2025-09-30
Авторы:

Emily Honey, Anders Helbo, Jens Petersen

Резюме на русском

## Контекст Модели машинного обучения, обеспечивающие перевод между различными скантипами диагностических зонда, являются ключевыми для улучшения диагностических возможностей. Особенно это актуально в случае моделей, конвертирующих магнитно-резонансные изображения (MRI) в радиологически важные компьютерно-томографические (CT) снимки. Изображения CT широко используются в диагностике и лечении, однако их получение может быть затруднено из-за ограничений времени, оборудования или здоровья пациента. Создание прогностических моделей, которые могут генерировать CT-изображения из MRI, может решить эти проблемы. Однако существует необходимость в стандартной метрике для сравнения эффективности разных моделей. Целью данной работы является сравнение двух популярных моделей для MRI-to-CT перевода: генеративной сети противоположностей (cGAN) и диффузионной модели регулируемого размытия (cDDPM). ## Метод Для сравнительного анализа были выбраны две устаревшие, но проверенные модели: Pix2Pix для cGAN и Palette для cDDPM. Работа опиралась на существующие модели, чтобы гарантировать надежный анализ. Традиционный трехмерный перевод MRI-to-CT был сконцентрирован на последовательности 2D-переводов на горизонтальной плоскости (промежуточные трансверсальные срезы). Это позволило снизить вычислительную нагрузку и упростить моделирование. Кроме того, авторы исследовали влияние условного ввода на определенный срез MRI и на несколько срезов MRI. Метрики оценки включали новую slice-wise Similarity of Slices (SIMOS), которая оценивала устойчивость генерируемых изображений при сборке в 3D-формат. Это позволило измерить качество слэйсов, не только индивидуально, но и в целом. ## Результаты Результаты сравнения показали, что модель cDDPM (Palette) демонстрирует более высокую точность и последовательность срезов по сравнению с cGAN (Pix2Pix). С помощью SIMOS было выявлено, что использование нескольких срезов MRI в качестве условного ввода для cDDPM улучшает продолжительность и точность генерируемых изображений. Эти результаты подтверждают, что архитектура cDDPM более эффективна в MRI-to-CT переводе, особенно при использовании условного ввода с несколькими срезами. ## Значимость Результаты работы имеют значительное значение для области радиологии и диагностики. Эффективные методы перевода MRI-to-CT могут существенно сократить время диагностики и улучшить доступ к терапевтическим решениям. cDDPM может быть применено в различных случаях, например, когда CT-изображения отсутствуют или трудно получить. Помимо этого, исследование показывает возможность уменьшения вычислительных затрат за счет 2D-мо

Abstract

Computed tomography (CT) is essential for treatment and diagnostics; In case CT are missing or otherwise difficult to obtain, methods for generating synthetic CT (sCT) images from magnetic resonance imaging (MRI) images are sought after. Therefore, it is valuable to establish a reference for what strategies are most effective for MRI-to-CT translation. In this paper, we compare the performance of two frequently used architectures for MRI-to-CT translation: a conditional generative adversarial network (cGAN) and a conditional denoising diffusion probabilistic model (cDDPM). We chose well-established implementations to represent each architecture: Pix2Pix for cGAN, and Palette for cDDPM. We separate the classical 3D translation problem into a sequence of 2D translations on the transverse plane, to investigate the viability of a strategy that reduces the computational cost. We also investigate the impact of conditioning the generative process on a single MRI image/slice and on multiple MRI slices. The performance is assessed using a thorough evaluation protocol, including a novel slice-wise metric Similarity Of Slices (SIMOS), which measures the continuity between transverse slices when compiling the sCTs into 3D format. Our comparative analysis revealed that MRI-to-CT generative models benefit from multi-channel conditional input and using cDDPM as an architecture.

Ссылки и действия