Exploring Pre-training Across Domains for Few-Shot Surgical Skill Assessment

2509.09327v1 cs.CV, cs.LG 2025-09-13
Авторы:

Dimitrios Anastasiou, Razvan Caramalau, Nazir Sirajudeen, Matthew Boal, Philip Edwards, Justin Collins, John Kelly, Ashwin Sridhar, Maxine Tran, Faiz Mumtaz, Nevil Pavithran, Nader Francis, Danail Stoyanov, Evangelos B. Mazomenos

Резюме на русском

## Контекст Оценка технических навыков в хирургии (surgical skill assessment, SSA) является ключевым заданием в сфере компьютерного зрения для хирургических применений. Однако существуют серьезные сложности в ее реализации, включая недостаток аннотированных данных для обучения моделей. Эти аннотации требуют времени и экспертного согласования, что делает их получение дорогостоящим и трудоемким процессом. Несмотря на то, что методы few-shot learning (FSL) предлагают альтернативу, своевременное развитие этих моделей требует эффективного предварительного обучения (pre-training). Хотя pre-training был изучен для многих субжективных задач в сфере хирургии, его применение в контексте SSA остается мало исследовано. В данной работе мы исследуем, как различные предварительные стратегии обучения влияют на результаты неполностью супервизированного обучения для SSA. ## Метод Мы формулируем задачу SSA в рамках few-shot learning и исследуем, как различные стратегии предварительного обучения влияют на получение результатов в такой ситуации. Для этого мы используем общедоступный датасет роботизированных хирургических операций и аннотируем его с помощью системы OSATS (Objective Structured Assessment of Technical Skill). Мы исследуем влияние различных источников предварительного обучения, включая внутренние (роботизированные хирургические операции) и внешние (различные невидеоматериалы), на результаты модели в few-shot сценариях с разным числом сэмплов. Мы также изучаем влияние размера и доменного аналогичности источников предварительного обучения на качество переноса (transferability). ## Результаты Мы выполнили эксперименты с предварительным обучением на различных датасетах и оценили его влияние на результаты в few-shot обучении для SSA. Мы сравнили результаты моделей, обученных на внутренних (роботизированных хирургических операций) и внешних (невидеоматериалах) датасетах с разным уровнем доменного аналогичности. Наши результаты показали, что даже небольшие, но доменно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно датасеты могут превосходить более крупные, но менее относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относительно относи

Abstract

Automated surgical skill assessment (SSA) is a central task in surgical computer vision. Developing robust SSA models is challenging due to the scarcity of skill annotations, which are time-consuming to produce and require expert consensus. Few-shot learning (FSL) offers a scalable alternative enabling model development with minimal supervision, though its success critically depends on effective pre-training. While widely studied for several surgical downstream tasks, pre-training has remained largely unexplored in SSA. In this work, we formulate SSA as a few-shot task and investigate how self-supervised pre-training strategies affect downstream few-shot SSA performance. We annotate a publicly available robotic surgery dataset with Objective Structured Assessment of Technical Skill (OSATS) scores, and evaluate various pre-training sources across three few-shot settings. We quantify domain similarity and analyze how domain gap and the inclusion of procedure-specific data into pre-training influence transferability. Our results show that small but domain-relevant datasets can outperform large scale, less aligned ones, achieving accuracies of 60.16%, 66.03%, and 73.65% in the 1-, 2-, and 5-shot settings, respectively. Moreover, incorporating procedure-specific data into pre-training with a domain-relevant external dataset significantly boosts downstream performance, with an average gain of +1.22% in accuracy and +2.28% in F1-score; however, applying the same strategy with less similar but large-scale sources can instead lead to performance degradation. Code and models are available at https://github.com/anastadimi/ssa-fsl.

Ссылки и действия