Efficient Image-to-Image Schrödinger Bridge for CT Field of View Extension
2508.11211v1
eess.IV, cs.CV
2025-08-19
Авторы:
Zhenhao Li, Long Yang, Xiaojie Yin, Haijun Yu, Jiazhou Wang, Hongbin Han, Weigang Hu, Yixing Huang
Резюме на русском
#### Контекст
Исследования фокусируются на расширении поле зрения (FOV) в вычислительной томографии (CT), чтобы устранить проблемы с реконструкцией изображений, вызванными ограниченным полем сканирования. Ограниченный FOV приводит к потерям данных на краях объекта, что приводит к неточностям и артифактам в реконструкции. Несмотря на развитие глубоких нейронных сетей, существующие методы стремительным темпам улучшают реконструкцию, но имеют высокую вычислительную сложность и медленную инференцию. Целью является разработка эффективного алгоритма, который обеспечивает как точность, так и быструю обработку.
#### Метод
Предложенный подход основан на методе Schrödinger Bridge (SBI), который строит директивное и ступенчатое поле вероятности между двумя распределениями. В этом случае, обучение I$^2$SB масштабирует сигналы от ограниченного FOV к расширенному FOV, обеспечивая прямую генеративную модель. Модель тренируется на парах изображений с разным FOV и использует диффузионную архитектуру, при этом система не требует многоэтапной инференции. Эта модель обладает высокой гибкостью и эффективностью, что делает ее привлекательной для технических и клинических приложений.
#### Результаты
Исследование проводилось на симулированных и реальных данных с различными уровнями шума и разрешения. Результаты показали, что I$^2$SB показывает очень высокую точность с RMSE 49.8 HU на симулированных данных и 152.0 HU на реальных данных. Был проведен сравнительный анализ с другими моделями, включая cDDPM и diffusionGAN. I$^2$SB не только превосходит эти методы по точности, но и достигает времени инференции всего 0.19 секунд за 2D-реконструкцию, что является более чем 700 раз быстрее, чем cDDPM и даже быстрее, чем diffusionGAN.
#### Значимость
Данный подход может применяться в клинических средах, где необходима быстрая и точная реконструкция изображений в реальном времени. Он предлагает выгоды в виде уменьшения вычислительных затрат и повышения точности реконструкции. Более того, ясная интерпретируемость генерируемого изображения повышает надежность и безопасность в клинической практике.
#### Выводы
Разработанная модель I$^2$SB достигла нового уровня эффективности и точности в CT FOV расширении. Будущие работы будут сфокусированы на расширении модели для 3D-реконструкций и её интеграции с другими методами в медицинской информатике. Эти исследования могут способствовать расширению применения диффузионных моделей в медицинской изображениях.
Abstract
Computed tomography (CT) is a cornerstone imaging modality for non-invasive,
high-resolution visualization of internal anatomical structures. However, when
the scanned object exceeds the scanner's field of view (FOV), projection data
are truncated, resulting in incomplete reconstructions and pronounced artifacts
near FOV boundaries. Conventional reconstruction algorithms struggle to recover
accurate anatomy from such data, limiting clinical reliability. Deep learning
approaches have been explored for FOV extension, with diffusion generative
models representing the latest advances in image synthesis. Yet, conventional
diffusion models are computationally demanding and slow at inference due to
their iterative sampling process. To address these limitations, we propose an
efficient CT FOV extension framework based on the image-to-image Schr\"odinger
Bridge (I$^2$SB) diffusion model. Unlike traditional diffusion models that
synthesize images from pure Gaussian noise, I$^2$SB learns a direct stochastic
mapping between paired limited-FOV and extended-FOV images. This direct
correspondence yields a more interpretable and traceable generative process,
enhancing anatomical consistency and structural fidelity in reconstructions.
I$^2$SB achieves superior quantitative performance, with root-mean-square error
(RMSE) values of 49.8\,HU on simulated noisy data and 152.0HU on real data,
outperforming state-of-the-art diffusion models such as conditional denoising
diffusion probabilistic models (cDDPM) and patch-based diffusion methods.
Moreover, its one-step inference enables reconstruction in just 0.19s per 2D
slice, representing over a 700-fold speedup compared to cDDPM (135s) and
surpassing diffusionGAN (0.58s), the second fastest. This combination of
accuracy and efficiency makes I$^2$SB highly suitable for real-time or clinical
deployment.
Ссылки и действия
Дополнительные ресурсы: