Efficient Image-to-Image Schrödinger Bridge for CT Field of View Extension

2508.11211v1 eess.IV, cs.CV 2025-08-19
Авторы:

Zhenhao Li, Long Yang, Xiaojie Yin, Haijun Yu, Jiazhou Wang, Hongbin Han, Weigang Hu, Yixing Huang

Резюме на русском

#### Контекст Исследования фокусируются на расширении поле зрения (FOV) в вычислительной томографии (CT), чтобы устранить проблемы с реконструкцией изображений, вызванными ограниченным полем сканирования. Ограниченный FOV приводит к потерям данных на краях объекта, что приводит к неточностям и артифактам в реконструкции. Несмотря на развитие глубоких нейронных сетей, существующие методы стремительным темпам улучшают реконструкцию, но имеют высокую вычислительную сложность и медленную инференцию. Целью является разработка эффективного алгоритма, который обеспечивает как точность, так и быструю обработку. #### Метод Предложенный подход основан на методе Schrödinger Bridge (SBI), который строит директивное и ступенчатое поле вероятности между двумя распределениями. В этом случае, обучение I$^2$SB масштабирует сигналы от ограниченного FOV к расширенному FOV, обеспечивая прямую генеративную модель. Модель тренируется на парах изображений с разным FOV и использует диффузионную архитектуру, при этом система не требует многоэтапной инференции. Эта модель обладает высокой гибкостью и эффективностью, что делает ее привлекательной для технических и клинических приложений. #### Результаты Исследование проводилось на симулированных и реальных данных с различными уровнями шума и разрешения. Результаты показали, что I$^2$SB показывает очень высокую точность с RMSE 49.8 HU на симулированных данных и 152.0 HU на реальных данных. Был проведен сравнительный анализ с другими моделями, включая cDDPM и diffusionGAN. I$^2$SB не только превосходит эти методы по точности, но и достигает времени инференции всего 0.19 секунд за 2D-реконструкцию, что является более чем 700 раз быстрее, чем cDDPM и даже быстрее, чем diffusionGAN. #### Значимость Данный подход может применяться в клинических средах, где необходима быстрая и точная реконструкция изображений в реальном времени. Он предлагает выгоды в виде уменьшения вычислительных затрат и повышения точности реконструкции. Более того, ясная интерпретируемость генерируемого изображения повышает надежность и безопасность в клинической практике. #### Выводы Разработанная модель I$^2$SB достигла нового уровня эффективности и точности в CT FOV расширении. Будущие работы будут сфокусированы на расширении модели для 3D-реконструкций и её интеграции с другими методами в медицинской информатике. Эти исследования могут способствовать расширению применения диффузионных моделей в медицинской изображениях.

Abstract

Computed tomography (CT) is a cornerstone imaging modality for non-invasive, high-resolution visualization of internal anatomical structures. However, when the scanned object exceeds the scanner's field of view (FOV), projection data are truncated, resulting in incomplete reconstructions and pronounced artifacts near FOV boundaries. Conventional reconstruction algorithms struggle to recover accurate anatomy from such data, limiting clinical reliability. Deep learning approaches have been explored for FOV extension, with diffusion generative models representing the latest advances in image synthesis. Yet, conventional diffusion models are computationally demanding and slow at inference due to their iterative sampling process. To address these limitations, we propose an efficient CT FOV extension framework based on the image-to-image Schr\"odinger Bridge (I$^2$SB) diffusion model. Unlike traditional diffusion models that synthesize images from pure Gaussian noise, I$^2$SB learns a direct stochastic mapping between paired limited-FOV and extended-FOV images. This direct correspondence yields a more interpretable and traceable generative process, enhancing anatomical consistency and structural fidelity in reconstructions. I$^2$SB achieves superior quantitative performance, with root-mean-square error (RMSE) values of 49.8\,HU on simulated noisy data and 152.0HU on real data, outperforming state-of-the-art diffusion models such as conditional denoising diffusion probabilistic models (cDDPM) and patch-based diffusion methods. Moreover, its one-step inference enables reconstruction in just 0.19s per 2D slice, representing over a 700-fold speedup compared to cDDPM (135s) and surpassing diffusionGAN (0.58s), the second fastest. This combination of accuracy and efficiency makes I$^2$SB highly suitable for real-time or clinical deployment.

Ссылки и действия