Semantic 3D Reconstructions with SLAM for Central Airway Obstruction

2509.13541v1 cs.RO, cs.CV 2025-09-19
Авторы:

Ayberk Acar, Fangjie Li, Hao Li, Lidia Al-Zogbi, Kanyifeechukwu Jane Oguine, Susheela Sharma Stern, Jesse F. d'Almeida, Robert J. Webster III, Ipek Oguz, Jie Ying Wu

Резюме на русском

## Контекст Центральная атриозная обструкция (CAO) — жизнеугрожающее состояние, характеризующееся блокировкой центральных респираторных путей из-за опухолей внутри или за пределами легких. Традиционные методы лечения, такие как бронхоскопия и электрокаутеризация, позволяют удалить опухоль, однако носят высокий риск осложнений. Новые технологии, такие как роботизированные интервенции, снижают риск и позволяют применять более точные методы. Однако необходимо создание систем, которые могут реально времени анализировать зоны обструкции и обеспечивать навигацию во время операции. Целью этого исследования является разработка метода, который объединяет семантическую сегментацию с реального времени построением трёхмерных моделей аэротракта. ## Метод Наша методология основывается на интеграции модели семантической сегментации с модулем DROID-SLAM для построения точечных трёхмерных моделей. Модель сегментации обучается на изображениях, которые идентифицируют обструктивные ткани внутри легких. DROID-SLAM используется для расчёта трёхмерной геометрии среды в реальном времени. Маски сегментации используются для анотирования точечных трёхмерных моделей, позволяющих выделить области, требующие внимания. Этот подход позволяет создавать карты легких с выделенными областями, нуждающихся в большем внимании. ## Результаты Мы проводили эксперименты на большом объёме данных, включающих образцы, симуляции и реальные операции. Мы использовали для этих целей изображения, полученные с помощью бронхоскопии. Результаты показали, что трёхмерные модели, построенные нашей системой, демонстрируют высокую точность в сравнении с реальными трёхмерными скандами, полученными через CT-сканирование. Мы измерили расстояние Chamfer и получили значение 0.62 мм, что говорит о высокой точности. Благодаря интеграции семантической сегментации, мы можем в реальном времени выделять и отмечать области потенциальных рисков, что повышает точность и безопасность процедур. ## Значимость Наша разработка может быть применена в медицинских ситуациях, требующих точности в операциях, включая лечение CAO. Одним из основных преимуществ является модульность: наша система может быть адаптирована к другим типам операций и телам, не требуя значительных изменений. Этот подход позволяет автоматизировать процессы, которые раньше требовали ручного вмешательства, и даёт возможность применения в стратегии будущих роботизированных интервенций. ## Выводы Мы представили первую работу, которая интегрирует сем

Abstract

Central airway obstruction (CAO) is a life-threatening condition with increasing incidence, caused by tumors in and outside of the airway. Traditional treatment methods such as bronchoscopy and electrocautery can be used to remove the tumor completely; however, these methods carry a high risk of complications. Recent advances allow robotic interventions with lesser risk. The combination of robot interventions with scene understanding and mapping also opens up the possibilities for automation. We present a novel pipeline that enables real-time, semantically informed 3D reconstructions of the central airway using monocular endoscopic video. Our approach combines DROID-SLAM with a segmentation model trained to identify obstructive tissues. The SLAM module reconstructs the 3D geometry of the airway in real time, while the segmentation masks guide the annotation of obstruction regions within the reconstructed point cloud. To validate our pipeline, we evaluate the reconstruction quality using ex vivo models. Qualitative and quantitative results show high similarity between ground truth CT scans and the 3D reconstructions (0.62 mm Chamfer distance). By integrating segmentation directly into the SLAM workflow, our system produces annotated 3D maps that highlight clinically relevant regions in real time. High-speed capabilities of the pipeline allows quicker reconstructions compared to previous work, reflecting the surgical scene more accurately. To the best of our knowledge, this is the first work to integrate semantic segmentation with real-time monocular SLAM for endoscopic CAO scenarios. Our framework is modular and can generalize to other anatomies or procedures with minimal changes, offering a promising step toward autonomous robotic interventions.

Ссылки и действия