Exploring Pre-training Across Domains for Few-Shot Surgical Skill Assessment
2509.09327v1
cs.CV, cs.LG
2025-09-13
Авторы:
Dimitrios Anastasiou, Razvan Caramalau, Nazir Sirajudeen, Matthew Boal, Philip Edwards, Justin Collins, John Kelly, Ashwin Sridhar, Maxine Tran, Faiz Mumtaz, Nevil Pavithran, Nader Francis, Danail Stoyanov, Evangelos B. Mazomenos
Резюме на русском
## Контекст
Оценка технических навыков в хирургии (surgical skill assessment, SSA) является ключевым заданием в сфере компьютерного зрения для хирургических применений. Однако существуют серьезные сложности в ее реализации, включая недостаток аннотированных данных для обучения моделей. Эти аннотации требуют времени и экспертного согласования, что делает их получение дорогостоящим и трудоемким процессом. Несмотря на то, что методы few-shot learning (FSL) предлагают альтернативу, своевременное развитие этих моделей требует эффективного предварительного обучения (pre-training). Хотя pre-training был изучен для многих субжективных задач в сфере хирургии, его применение в контексте SSA остается мало исследовано. В данной работе мы исследуем, как различные предварительные стратегии обучения влияют на результаты неполностью супервизированного обучения для SSA.
## Метод
Мы формулируем задачу SSA в рамках few-shot learning и исследуем, как различные стратегии предварительного обучения влияют на получение результатов в такой ситуации. Для этого мы используем общедоступный датасет роботизированных хирургических операций и аннотируем его с помощью системы OSATS (Objective Structured Assessment of Technical Skill). Мы исследуем влияние различных источников предварительного обучения, включая внутренние (роботизированные хирургические операции) и внешние (различные невидеоматериалы), на результаты модели в few-shot сценариях с разным числом сэмплов. Мы также изучаем влияние размера и доменного аналогичности источников предварительного обучения на качество переноса (transferability).
## Результаты
Мы выполнили эксперименты с предварительным обучением на различных датасетах и оценили его влияние на результаты в few-shot обучении для SSA. Мы сравнили результаты моделей, обученных на внутренних (роботизированных хирургических операций) и внешних (невидеоматериалах) датасетах с разным уровнем доменного аналогичности. Наши результаты показали, что даже небольшие, но доменно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно датасеты могут превосходить более крупные, но менее относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относи
Abstract
Automated surgical skill assessment (SSA) is a central task in surgical
computer vision. Developing robust SSA models is challenging due to the
scarcity of skill annotations, which are time-consuming to produce and require
expert consensus. Few-shot learning (FSL) offers a scalable alternative
enabling model development with minimal supervision, though its success
critically depends on effective pre-training. While widely studied for several
surgical downstream tasks, pre-training has remained largely unexplored in SSA.
In this work, we formulate SSA as a few-shot task and investigate how
self-supervised pre-training strategies affect downstream few-shot SSA
performance. We annotate a publicly available robotic surgery dataset with
Objective Structured Assessment of Technical Skill (OSATS) scores, and evaluate
various pre-training sources across three few-shot settings. We quantify domain
similarity and analyze how domain gap and the inclusion of procedure-specific
data into pre-training influence transferability. Our results show that small
but domain-relevant datasets can outperform large scale, less aligned ones,
achieving accuracies of 60.16%, 66.03%, and 73.65% in the 1-, 2-, and 5-shot
settings, respectively. Moreover, incorporating procedure-specific data into
pre-training with a domain-relevant external dataset significantly boosts
downstream performance, with an average gain of +1.22% in accuracy and +2.28%
in F1-score; however, applying the same strategy with less similar but
large-scale sources can instead lead to performance degradation. Code and
models are available at https://github.com/anastadimi/ssa-fsl.
Ссылки и действия
Дополнительные ресурсы: