ColonCrafter: A Depth Estimation Model for Colonoscopy Videos Using Diffusion Priors

2509.13525v1 cs.CV, cs.AI, cs.LG 2025-09-19

Авторы:

Romain Hardy, Tyler Berzin, Pranav Rajpurkar

Резюме на русском

## Контекст Колонкоскопии — это важный метод диагностики и мониторинга заболеваний кишечника, но существуют значительные проблемы в том, чтобы получить трехмерную (3D) сцену из двухмерных (2D) видеопотоков. Автоматизированные системы для построения 3D моделей кишечника могут существенно повысить точность диагностики и хирургических операций. Однако существующие модели для подсчета глубины в видео содержат ошибки во временной консистенции, что не позволяет использовать их для полноценного 3D-реконструкции. Мы предлагаем ColonCrafter, модель, основанную на диффузионной распространенности, которая создает временно консистентные карты глубины из монокулярных видео. Метод ориентируется на улучшение результатов в 3D-реконструкции, предлагая максимально точную модель для клинических целей. ## Метод ColonCrafter основывается на использовании диффузионных моделей и синтетических сигналов. Мы обучаем модель с помощью синтетических видео-потоков, которые затем используются для воспроизведения временно консистентных карт глубины. Мы также предлагаем новую технику стилизации, которая позволяет применить данную модель для реальных клинических видео. Модель преобразовывает видео в отдельные кадры, а затем применяет нашу диффузионную модель, чтобы вычислить глубину каждого кадра. Это позволяет получить временно консистентные данные, необходимые для полноценной 3D-реконструкции. ## Результаты Мы проверили ColonCrafter на датасете C3VD, сравнив его с двумя типами моделей: общего назначения и специально разработанных для колонкоскопии. ColonCrafter достиг самых высоких результатов в тестировании zero-shot, показав лучшие результаты в надежности и точности. Наши результаты показали, что модель может производить временно консистентные карты глубины, которые являются ключевыми для применения в 3D-реконструкции. Мы также продемонстрировали, что модель может генерировать точные 3D-точечные модели и оценивать покрытие поверхности, что делает её полезной для клинических применений. ## Значимость Наша модель может быть применена в клинических условиях для улучшения 3D-реконструкции кишечника. В отличие от других моделей, ColonCrafter позволяет получить более точные результаты в 3D-моделировании, что может существенно повысить точность диагностики и планирования хирургических операций. Кроме того, наша модель может использоваться для оценки покрытия поверхности и построения точечных моделей, что делает её универсальной и привлекательной для развития новых методов в современной медицине. ## Выводы Мы представили ColonCrafter, модель, которая установила новый стандарт в подсчете глубины в колонкоскопии. Мы

Abstract

Three-dimensional (3D) scene understanding in colonoscopy presents significant challenges that necessitate automated methods for accurate depth estimation. However, existing depth estimation models for endoscopy struggle with temporal consistency across video sequences, limiting their applicability for 3D reconstruction. We present ColonCrafter, a diffusion-based depth estimation model that generates temporally consistent depth maps from monocular colonoscopy videos. Our approach learns robust geometric priors from synthetic colonoscopy sequences to generate temporally consistent depth maps. We also introduce a style transfer technique that preserves geometric structure while adapting real clinical videos to match our synthetic training domain. ColonCrafter achieves state-of-the-art zero-shot performance on the C3VD dataset, outperforming both general-purpose and endoscopy-specific approaches. Although full trajectory 3D reconstruction remains a challenge, we demonstrate clinically relevant applications of ColonCrafter, including 3D point cloud generation and surface coverage assessment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ColonCrafter: A Depth Estimation Model for Colonoscopy Videos Using Diffusion Priors

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация