Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery

2509.20941v1 cs.CV, I.2.10; I.4.8; J.3 2025-09-27
Авторы:

Angelo Henriques, Korab Hoxha, Daniel Zapp, Peter C. Issa, Nassir Navab, M. Ali Nasseri

Резюме на русском

## Контекст Оперативная среда представляет собой сложную динамическую систему, требующую точного анализа и понимания для поддержки безопасности и эффективности в медицинской практике. Одним из ключевых инструментов для понимания таких окружений являются **Scene Graphs (SGs)** — структурированные сети, описывающие отношения между объектами в среде. SGs уже применяются в многих областях, включая распознавание образов, анализ текста и синтез речи. Однако в медицинской сфере, особенно в хирургии, их потенциал остается недостаточно исследованным. Несмотря на растущий интерес к использованию SGs в ситуациях, требующих мониторинга, анализа и управления хирургическим процессом, текущие исследования сильно разрознены, что создает сложности в оценке их реального вклада в улучшение медицинских технологий. ## Метод Для оценки вклада SGs в хирургические приложения использовалась методология разработанная в соответствии с PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews). Исследование включило поиск, оценку и систематическую картирование данных из различных источников. Основное внимание было уделено сравнению технологий и методов, используемых для построения и применения SGs в различных сценариях. Рассматривались два основных направления: внутренний (2D-видео) и внешний (4D-моделирование) взгляд на оперативную среду. Также, были проанализированы технические решения, методы обучения и архитектуры, используемые в современных SGs. ## Результаты Исследование выявило значительный рост в новых решениях, которые используют SGs в хирургии. Особенно заметны развития в области **графовых нейронных сетей (GNN)** и более специализированных **основных моделей**, которые превосходят широко используемые общие модели зрения и языка. Данные были получены из ограниченного, но качественного набора работ, включающих триплетное распознавание, синтез сценариев и моделирование внешних обзорных данных. Однако обнаружилось, что существует критическая разница в использовании данных: внутренние сцены часто основываются на реальных 2D-видео, в то время как внешние сцены — на симуляционных данных. Это создает трансляционную проблему, ограничивающую передачу решений из лабораторных условий в практическое применение. ## Значимость SGs не только улучшают работу систем мониторинга и анализа в хирургии но и открывают новые перспективы для **контролируемого моделирования и симуляции**. Они могут использоваться для развития безопасных и эффективных систем для обучения и мониторинга хирургических процессов. Эти технологии мог

Abstract

Scene graphs (SGs) provide structured relational representations crucial for decoding complex, dynamic surgical environments. This PRISMA-ScR-guided scoping review systematically maps the evolving landscape of SG research in surgery, charting its applications, methodological advancements, and future directions. Our analysis reveals rapid growth, yet uncovers a critical 'data divide': internal-view research (e.g., triplet recognition) almost exclusively uses real-world 2D video, while external-view 4D modeling relies heavily on simulated data, exposing a key translational research gap. Methodologically, the field has advanced from foundational graph neural networks to specialized foundation models that now significantly outperform generalist large vision-language models in surgical contexts. This progress has established SGs as a cornerstone technology for both analysis, such as workflow recognition and automated safety monitoring, and generative tasks like controllable surgical simulation. Although challenges in data annotation and real-time implementation persist, they are actively being addressed through emerging techniques. Surgical SGs are maturing into an essential semantic bridge, enabling a new generation of intelligent systems to improve surgical safety, efficiency, and training.

Ссылки и действия