Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery
2509.20941v1
cs.CV, I.2.10; I.4.8; J.3
2025-09-27
Авторы:
Angelo Henriques, Korab Hoxha, Daniel Zapp, Peter C. Issa, Nassir Navab, M. Ali Nasseri
Резюме на русском
## Контекст
Оперативная среда представляет собой сложную динамическую систему, требующую точного анализа и понимания для поддержки безопасности и эффективности в медицинской практике. Одним из ключевых инструментов для понимания таких окружений являются **Scene Graphs (SGs)** — структурированные сети, описывающие отношения между объектами в среде. SGs уже применяются в многих областях, включая распознавание образов, анализ текста и синтез речи. Однако в медицинской сфере, особенно в хирургии, их потенциал остается недостаточно исследованным. Несмотря на растущий интерес к использованию SGs в ситуациях, требующих мониторинга, анализа и управления хирургическим процессом, текущие исследования сильно разрознены, что создает сложности в оценке их реального вклада в улучшение медицинских технологий.
## Метод
Для оценки вклада SGs в хирургические приложения использовалась методология разработанная в соответствии с PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews). Исследование включило поиск, оценку и систематическую картирование данных из различных источников. Основное внимание было уделено сравнению технологий и методов, используемых для построения и применения SGs в различных сценариях. Рассматривались два основных направления: внутренний (2D-видео) и внешний (4D-моделирование) взгляд на оперативную среду. Также, были проанализированы технические решения, методы обучения и архитектуры, используемые в современных SGs.
## Результаты
Исследование выявило значительный рост в новых решениях, которые используют SGs в хирургии. Особенно заметны развития в области **графовых нейронных сетей (GNN)** и более специализированных **основных моделей**, которые превосходят широко используемые общие модели зрения и языка. Данные были получены из ограниченного, но качественного набора работ, включающих триплетное распознавание, синтез сценариев и моделирование внешних обзорных данных. Однако обнаружилось, что существует критическая разница в использовании данных: внутренние сцены часто основываются на реальных 2D-видео, в то время как внешние сцены — на симуляционных данных. Это создает трансляционную проблему, ограничивающую передачу решений из лабораторных условий в практическое применение.
## Значимость
SGs не только улучшают работу систем мониторинга и анализа в хирургии но и открывают новые перспективы для **контролируемого моделирования и симуляции**. Они могут использоваться для развития безопасных и эффективных систем для обучения и мониторинга хирургических процессов. Эти технологии мог
Abstract
Scene graphs (SGs) provide structured relational representations crucial for
decoding complex, dynamic surgical environments. This PRISMA-ScR-guided scoping
review systematically maps the evolving landscape of SG research in surgery,
charting its applications, methodological advancements, and future directions.
Our analysis reveals rapid growth, yet uncovers a critical 'data divide':
internal-view research (e.g., triplet recognition) almost exclusively uses
real-world 2D video, while external-view 4D modeling relies heavily on
simulated data, exposing a key translational research gap. Methodologically,
the field has advanced from foundational graph neural networks to specialized
foundation models that now significantly outperform generalist large
vision-language models in surgical contexts. This progress has established SGs
as a cornerstone technology for both analysis, such as workflow recognition and
automated safety monitoring, and generative tasks like controllable surgical
simulation. Although challenges in data annotation and real-time implementation
persist, they are actively being addressed through emerging techniques.
Surgical SGs are maturing into an essential semantic bridge, enabling a new
generation of intelligent systems to improve surgical safety, efficiency, and
training.