FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes
2509.06159v1
eess.IV, cs.AI, cs.CV, I.4.6; I.4.8; J.3
2025-09-10
Авторы:
Muraam Abdel-Ghani, Mahmoud Ali, Mohamed Ali, Fatmaelzahraa Ahmed, Mohamed Arsalan, Abdulaziz Al-Ali, Shidin Balakrishnan
Резюме на русском
## Контекст
Рост популярности роботизированных минимально инвазивных операций в сфере медицины привел к тому, что глубокое обучение стало ключевым направлением в системах тренировки хирургов. Для эффективного обучения необходимо тщательное понимание компонентов сцены хирургической операции. Однако существующие модели имеют ограничения в том, что они недостаточно точно отличают анатомические объекты и стоковые инструменты на хирургических сценах. Недостаток в точности и представлении сложных сцен приводит к необходимости в развитии моделей семантической сегментации, которые могут обеспечить более точное разделение этих компонентов. Мы предлагаем новую модель Feature-Adaptive Spatial Localization (FASL-Seg), которая предназначена для эффективного анализа и сегментации объектов с разными уровнями детализации.
## Метод
FASL-Seg основывается на двух основных потоках обработки, которые принимают во внимание разные уровни детализации. Низкоуровневый поток (LLFP) специализируется на тонкой детализации изображений, в то время как высокоуровневый поток (HLFP) сосредотачивается на контекстном понимании. Это позволяет модели быть более точной в различных задачах сегментации. Мы использовали архитектуру сверточных нейронных сетей с улучшенным механизмом адаптации для выделения разных типов источников данных. Модель обучалась на широко известных датасетах EndoVis18 и EndoVis17, которые включают объекты, инструменты и другие компоненты хирургических сцен.
## Результаты
На EndoVis18 показано, что FASL-Seg достигла максимальной точности в сегментации частей и анатомических объектов (72.71% mIoU), что превышает лучшие результаты локальных моделей на 5%. Для сегментации инструментов, она показала результат 85.61% на EndoVis18 и 72.78% на EndoVis17, что также превосходит существующие модели. Наши результаты показывают, что модель обладает высокой точностью и постоянностью в разных классах, что демонстрирует ее эффективность в разных условиях.
## Значимость
Этот подход может быть применен в медицинских областях, где необходима точная сегментация анатомических объектов и инструментов, например, в роботизированных операциях и медико-технических исследованиях. Он предлагает значительное улучшение точности и обеспечивает более гибкий подход к сегментации сложных сцен. Мы также выделяем потенциал модели в обучении для новых моделей, которые могут быть использованы для улучшения качества хирургических операций.
## Выводы
FASL-Seg доказала свою эффективность в сегментации анатомических и инструментальных компонентов на хирургических сценах. Мы планируем про
Abstract
The growing popularity of robotic minimally invasive surgeries has made deep
learning-based surgical training a key area of research. A thorough
understanding of the surgical scene components is crucial, which semantic
segmentation models can help achieve. However, most existing work focuses on
surgical tools and overlooks anatomical objects. Additionally, current
state-of-the-art (SOTA) models struggle to balance capturing high-level
contextual features and low-level edge features. We propose a Feature-Adaptive
Spatial Localization model (FASL-Seg), designed to capture features at multiple
levels of detail through two distinct processing streams, namely a Low-Level
Feature Projection (LLFP) and a High-Level Feature Projection (HLFP) stream,
for varying feature resolutions - enabling precise segmentation of anatomy and
surgical instruments. We evaluated FASL-Seg on surgical segmentation benchmark
datasets EndoVis18 and EndoVis17 on three use cases. The FASL-Seg model
achieves a mean Intersection over Union (mIoU) of 72.71% on parts and anatomy
segmentation in EndoVis18, improving on SOTA by 5%. It further achieves a mIoU
of 85.61% and 72.78% in EndoVis18 and EndoVis17 tool type segmentation,
respectively, outperforming SOTA overall performance, with comparable per-class
SOTA results in both datasets and consistent performance in various classes for
anatomy and instruments, demonstrating the effectiveness of distinct processing
streams for varying feature resolutions.