MInDI-3D: Iterative Deep Learning in 3D for Sparse-view Cone Beam Computed Tomography

2508.09616v1 cs.CV, cs.AI 2025-08-15
Авторы:

Daniel Barco, Marc Stadelmann, Martin Oswald, Ivo Herzig, Lukas Lichtensteiger, Pascal Paysan, Igor Peterlik, Michal Walczak, Bjoern Menze, Frank-Peter Schilling

Резюме на русском

## Контекст Медицинская томография с помощью спарс-вью конусового лучевого томографии (CBCT) широко применяется в радиологических процедурах, но связана с высокой радиационной экспозицией. Ограничение экспозиции является ключевым заданием для улучшения безопасности и качества обследований. Существующие методы уменьшения радиационной экспозиции часто либо неэффективны, либо приводят к потере разрешения или качества изображения. Модели стандартной вычислительной томографии недостаточно эффективны для обработки спарс-вью данных. Мотивация заключается в разработке методов, которые бы уменьшили экспозицию, сохранив качество изображения. ## Метод Модель MInDI-3D (Medical Inversion by Direct Iteration in 3D) представляет собой первую трёхмерную условную модель диффузии на основе нейронных сетей, разработанную для решения задачи уменьшения артефактов в CBCT. Основной идеей является итеративный процесс диффузии, который рефинирует CBCT-объём, начиная с спарс-вью входных данных. Метод использует архитектуру на основе генеративных моделей со слоями, основанными на информации о данных. Модель была обучена на подготовленном корпусе данных, содержащем 16 182 наборы данных, сгенерированных из тёлочных CT-изображений. Для вычислительных экспериментов использовались метрики, анализы широкого круга данных и клиническая оценка. ## Результаты В результате опытов, проведённых на 16 пациентах с раком лёгких, MInDI-3D показала существенное улучшение в качестве изображений по сравнению с необработанными спарс-вью сканами. Обнаружена увеличенная точность в задачах оценки дистанции и распознавания объектов, а также снижение радиационной экспозиции в 8 раз. За счёт 300 тысяч итераций диффузии, MInDI-3D была способна предсказать CBCT-изображения, которые соответствовали результатам реальных 3D-сканеров. Было показано, что модель способна хорошо работать на других медицинских сканерах и новых приложениях. ## Значимость Приложения MInDI-3D могут применяться в радиологических процедурах, где требуется минимизация радиационной экспозиции. Особенно актуально в случае обследований лёгких и грудной клетки. Основные преимущества: высокое качество изображений, демонстрируемое на реальных данных, снижение радиационного воздействия и независимость от типа сканера. Модель может быть применена для улучшения технологий в радиологии, уменьшения стоимости обследований и повышения безопасности. ## Выводы Результаты показали, что MInDI-3D эффективно уменьшает радиационную экспозицию и сохраняет качество изображений. В дальнейши

Abstract

We present MInDI-3D (Medical Inversion by Direct Iteration in 3D), the first 3D conditional diffusion-based model for real-world sparse-view Cone Beam Computed Tomography (CBCT) artefact removal, aiming to reduce imaging radiation exposure. A key contribution is extending the "InDI" concept from 2D to a full 3D volumetric approach for medical images, implementing an iterative denoising process that refines the CBCT volume directly from sparse-view input. A further contribution is the generation of a large pseudo-CBCT dataset (16,182) from chest CT volumes of the CT-RATE public dataset to robustly train MInDI-3D. We performed a comprehensive evaluation, including quantitative metrics, scalability analysis, generalisation tests, and a clinical assessment by 11 clinicians. Our results show MInDI-3D's effectiveness, achieving a 12.96 (6.10) dB PSNR gain over uncorrected scans with only 50 projections on the CT-RATE pseudo-CBCT (independent real-world) test set and enabling an 8x reduction in imaging radiation exposure. We demonstrate its scalability by showing that performance improves with more training data. Importantly, MInDI-3D matches the performance of a 3D U-Net on real-world scans from 16 cancer patients across distortion and task-based metrics. It also generalises to new CBCT scanner geometries. Clinicians rated our model as sufficient for patient positioning across all anatomical sites and found it preserved lung tumour boundaries well.

Ссылки и действия