FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes

2509.06159v1 eess.IV, cs.AI, cs.CV, I.4.6; I.4.8; J.3 2025-09-10

Авторы:

Muraam Abdel-Ghani, Mahmoud Ali, Mohamed Ali, Fatmaelzahraa Ahmed, Mohamed Arsalan, Abdulaziz Al-Ali, Shidin Balakrishnan

Резюме на русском

## Контекст Рост популярности роботизированных минимально инвазивных операций в сфере медицины привел к тому, что глубокое обучение стало ключевым направлением в системах тренировки хирургов. Для эффективного обучения необходимо тщательное понимание компонентов сцены хирургической операции. Однако существующие модели имеют ограничения в том, что они недостаточно точно отличают анатомические объекты и стоковые инструменты на хирургических сценах. Недостаток в точности и представлении сложных сцен приводит к необходимости в развитии моделей семантической сегментации, которые могут обеспечить более точное разделение этих компонентов. Мы предлагаем новую модель Feature-Adaptive Spatial Localization (FASL-Seg), которая предназначена для эффективного анализа и сегментации объектов с разными уровнями детализации. ## Метод FASL-Seg основывается на двух основных потоках обработки, которые принимают во внимание разные уровни детализации. Низкоуровневый поток (LLFP) специализируется на тонкой детализации изображений, в то время как высокоуровневый поток (HLFP) сосредотачивается на контекстном понимании. Это позволяет модели быть более точной в различных задачах сегментации. Мы использовали архитектуру сверточных нейронных сетей с улучшенным механизмом адаптации для выделения разных типов источников данных. Модель обучалась на широко известных датасетах EndoVis18 и EndoVis17, которые включают объекты, инструменты и другие компоненты хирургических сцен. ## Результаты На EndoVis18 показано, что FASL-Seg достигла максимальной точности в сегментации частей и анатомических объектов (72.71% mIoU), что превышает лучшие результаты локальных моделей на 5%. Для сегментации инструментов, она показала результат 85.61% на EndoVis18 и 72.78% на EndoVis17, что также превосходит существующие модели. Наши результаты показывают, что модель обладает высокой точностью и постоянностью в разных классах, что демонстрирует ее эффективность в разных условиях. ## Значимость Этот подход может быть применен в медицинских областях, где необходима точная сегментация анатомических объектов и инструментов, например, в роботизированных операциях и медико-технических исследованиях. Он предлагает значительное улучшение точности и обеспечивает более гибкий подход к сегментации сложных сцен. Мы также выделяем потенциал модели в обучении для новых моделей, которые могут быть использованы для улучшения качества хирургических операций. ## Выводы FASL-Seg доказала свою эффективность в сегментации анатомических и инструментальных компонентов на хирургических сценах. Мы планируем про

Abstract

The growing popularity of robotic minimally invasive surgeries has made deep learning-based surgical training a key area of research. A thorough understanding of the surgical scene components is crucial, which semantic segmentation models can help achieve. However, most existing work focuses on surgical tools and overlooks anatomical objects. Additionally, current state-of-the-art (SOTA) models struggle to balance capturing high-level contextual features and low-level edge features. We propose a Feature-Adaptive Spatial Localization model (FASL-Seg), designed to capture features at multiple levels of detail through two distinct processing streams, namely a Low-Level Feature Projection (LLFP) and a High-Level Feature Projection (HLFP) stream, for varying feature resolutions - enabling precise segmentation of anatomy and surgical instruments. We evaluated FASL-Seg on surgical segmentation benchmark datasets EndoVis18 and EndoVis17 on three use cases. The FASL-Seg model achieves a mean Intersection over Union (mIoU) of 72.71% on parts and anatomy segmentation in EndoVis18, improving on SOTA by 5%. It further achieves a mIoU of 85.61% and 72.78% in EndoVis18 and EndoVis17 tool type segmentation, respectively, outperforming SOTA overall performance, with comparable per-class SOTA results in both datasets and consistent performance in various classes for anatomy and instruments, demonstrating the effectiveness of distinct processing streams for varying feature resolutions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация