TransForSeg: A Multitask Stereo ViT for Joint Stereo Segmentation and 3D Force Estimation in Catheterization

2509.01605v1 cs.CV, cs.AI, cs.LG, cs.RO 2025-09-05
Авторы:

Pedram Fekri, Mehrdad Zadeh, Javad Dargahi

Резюме на русском

#### Контекст Улучшение технологий мониторинга и визуализации в катехеризации требует повышения точности оценки взаимодействия медицинского оборудования с организмом пациента. Одной из ключевых задач является сочетание данных визуального и тактильного типа для повышения точности интерпретации данных. Для этого широко используются многозадачные нейросетевые модели, которые объединяют в себе различные задачи, такие как сегментация изображений и оценка трения. Эти задачи имеют прикладное значение в медицинской практике, поскольку позволяют улучшить точность и эффективность процедур катехеризации. Однако существуют проблемы с ресурсоемкостью и недостаточной точностью, которые существенно ограничивают практическое применение таких моделей. #### Метод Мы предлагаем TransForSeg — модель, основанную на Vision Transformer, которая обрабатывает два входных изображения в качестве последовательностей. Модель учитывает длинные зависимости между патчами изображений с разных углов, не требуя их последовательного расширения. Для каждого входа используется отдельный сегментационный блок, а для оценки трения — регрессионный блок, объединяющий результаты двух сегментационных блоков. Наша модель обеспечивает синхронную оценку сегментации и трения с помощью контекстно-зависимой моделирования, которая использует возможности Vision Transformer для передачи длинных зависимостей. #### Результаты Мы провели тщательные эксперименты на синтетических X-X-ray изображениях с разными уровнями шума. Модель была сравнена с современными моделями для сегментации изображений, задач оценки трения, а также с многозадачными моделями. Результаты показали, что TransForSeg превосходит существующие модели по качеству сегментации и точности оценки трения. Она установила новый стандарт в области катехеризации, позволив улучшить качество обработки изображений и точность тренировочных моделей. #### Значимость Модель TransForSeg может быть применена в различных областях, где требуется синхронная оценка геометрии и трения. Например, в медицинских процедурах, визуальном мониторинге и анализе трения. Основной преимуществом TransForSeg является её многозадачность, которая позволяет эффективно обрабатывать изображения и оценивать физические взаимодействия. Это открывает путь к улучшению точности и эффективности в медицинских процедурах. #### Выводы Мы представили TransForSeg — модель, которая демонстрирует высокую точность в сегментации изображений и оценке трения. Наши результаты показывают, что модель может стать новым стандартом в синхронной оценке сегментации и трения. Будущие исследования будут сконцентрированы на расширени

Abstract

Recently, the emergence of multitask deep learning models has enhanced catheterization procedures by providing tactile and visual perception data through an end-to-end architecture. This information is derived from a segmentation and force estimation head, which localizes the catheter in X-ray images and estimates the applied pressure based on its deflection within the image. These stereo vision architectures incorporate a CNN-based encoder-decoder that captures the dependencies between X-ray images from two viewpoints, enabling simultaneous 3D force estimation and stereo segmentation of the catheter. With these tasks in mind, this work approaches the problem from a new perspective. We propose a novel encoder-decoder Vision Transformer model that processes two input X-ray images as separate sequences. Given sequences of X-ray patches from two perspectives, the transformer captures long-range dependencies without the need to gradually expand the receptive field for either image. The embeddings generated by both the encoder and decoder are fed into two shared segmentation heads, while a regression head employs the fused information from the decoder for 3D force estimation. The proposed model is a stereo Vision Transformer capable of simultaneously segmenting the catheter from two angles while estimating the generated forces at its tip in 3D. This model has undergone extensive experiments on synthetic X-ray images with various noise levels and has been compared against state-of-the-art pure segmentation models, vision-based catheter force estimation methods, and a multitask catheter segmentation and force estimation approach. It outperforms existing models, setting a new state-of-the-art in both catheter segmentation and force estimation.

Ссылки и действия