MInDI-3D: Iterative Deep Learning in 3D for Sparse-view Cone Beam Computed Tomography
2508.09616v1
cs.CV, cs.AI
2025-08-15
Авторы:
Daniel Barco, Marc Stadelmann, Martin Oswald, Ivo Herzig, Lukas Lichtensteiger, Pascal Paysan, Igor Peterlik, Michal Walczak, Bjoern Menze, Frank-Peter Schilling
Резюме на русском
## Контекст
Медицинская томография с помощью спарс-вью конусового лучевого томографии (CBCT) широко применяется в радиологических процедурах, но связана с высокой радиационной экспозицией. Ограничение экспозиции является ключевым заданием для улучшения безопасности и качества обследований. Существующие методы уменьшения радиационной экспозиции часто либо неэффективны, либо приводят к потере разрешения или качества изображения. Модели стандартной вычислительной томографии недостаточно эффективны для обработки спарс-вью данных. Мотивация заключается в разработке методов, которые бы уменьшили экспозицию, сохранив качество изображения.
## Метод
Модель MInDI-3D (Medical Inversion by Direct Iteration in 3D) представляет собой первую трёхмерную условную модель диффузии на основе нейронных сетей, разработанную для решения задачи уменьшения артефактов в CBCT. Основной идеей является итеративный процесс диффузии, который рефинирует CBCT-объём, начиная с спарс-вью входных данных. Метод использует архитектуру на основе генеративных моделей со слоями, основанными на информации о данных. Модель была обучена на подготовленном корпусе данных, содержащем 16 182 наборы данных, сгенерированных из тёлочных CT-изображений. Для вычислительных экспериментов использовались метрики, анализы широкого круга данных и клиническая оценка.
## Результаты
В результате опытов, проведённых на 16 пациентах с раком лёгких, MInDI-3D показала существенное улучшение в качестве изображений по сравнению с необработанными спарс-вью сканами. Обнаружена увеличенная точность в задачах оценки дистанции и распознавания объектов, а также снижение радиационной экспозиции в 8 раз. За счёт 300 тысяч итераций диффузии, MInDI-3D была способна предсказать CBCT-изображения, которые соответствовали результатам реальных 3D-сканеров. Было показано, что модель способна хорошо работать на других медицинских сканерах и новых приложениях.
## Значимость
Приложения MInDI-3D могут применяться в радиологических процедурах, где требуется минимизация радиационной экспозиции. Особенно актуально в случае обследований лёгких и грудной клетки. Основные преимущества: высокое качество изображений, демонстрируемое на реальных данных, снижение радиационного воздействия и независимость от типа сканера. Модель может быть применена для улучшения технологий в радиологии, уменьшения стоимости обследований и повышения безопасности.
## Выводы
Результаты показали, что MInDI-3D эффективно уменьшает радиационную экспозицию и сохраняет качество изображений. В дальнейши
Abstract
We present MInDI-3D (Medical Inversion by Direct Iteration in 3D), the first
3D conditional diffusion-based model for real-world sparse-view Cone Beam
Computed Tomography (CBCT) artefact removal, aiming to reduce imaging radiation
exposure. A key contribution is extending the "InDI" concept from 2D to a full
3D volumetric approach for medical images, implementing an iterative denoising
process that refines the CBCT volume directly from sparse-view input. A further
contribution is the generation of a large pseudo-CBCT dataset (16,182) from
chest CT volumes of the CT-RATE public dataset to robustly train MInDI-3D. We
performed a comprehensive evaluation, including quantitative metrics,
scalability analysis, generalisation tests, and a clinical assessment by 11
clinicians. Our results show MInDI-3D's effectiveness, achieving a 12.96 (6.10)
dB PSNR gain over uncorrected scans with only 50 projections on the CT-RATE
pseudo-CBCT (independent real-world) test set and enabling an 8x reduction in
imaging radiation exposure. We demonstrate its scalability by showing that
performance improves with more training data. Importantly, MInDI-3D matches the
performance of a 3D U-Net on real-world scans from 16 cancer patients across
distortion and task-based metrics. It also generalises to new CBCT scanner
geometries. Clinicians rated our model as sufficient for patient positioning
across all anatomical sites and found it preserved lung tumour boundaries well.
Ссылки и действия
Дополнительные ресурсы: