Analysis of Transferability Estimation Metrics for Surgical Phase Recognition

2508.16730v1 eess.IV, cs.CV, cs.LG 2025-08-27
Авторы:

Prabhant Singh, Yiping Li, Yasmina Al Khalil

Резюме на русском

## Контекст Область исследования — анализ методов для оценки передовой мощности (transferability) моделей машинного обучения в задачах анализа сургиских видео. Одним из основных заданий в этой области является выбор наиболее подходящей предобученной модели для дальнейшего fine-tuning на задачу распознавания фаз сургерии. Этот выбор становится критически важным в условиях ограниченного количества меток, необходимых для обучения. Одним из подходов является source-independent transferability estimation (SITE), позволяющий предсказать эффективность fine-tuning'а на основе существующих векторов выхода или эмбеддингов модели, не требуя полной перепрограммировки. Несмотря на преимущества SITE, существуют проблемы, такие как ограниченная общность и возможность неточных оценок, которые могут привести к недостоверному выбору модели. Цель данного исследования — оценить и сравнить три широко используемых метрики SITE в контексте задачи распознавания фаз в сургерии (surgical phase recognition). ## Метод Методология основывается на сравнительном анализе трех метрик SITE: LogME, H-Score и TransRate. Данные для тестирования были взяты из двух различных наборов данных: RAMIE и AutoLaparo. Эти метрики были измерены для трех предобученных моделей, а результаты были сравнивались с реальным fine-tuning'ом для проверки точности предсказаний. Аблационные эксперименты проводились для оценки значимости различных аспектов, таких как качество модели, размеры датасетов и их разнообразие. Для визуализации и анализа результатов использовались графики, такие как boxplots и scatter plots. ## Результаты Результаты экспериментов показали, что LogME показывает наиболее точные предсказания для fine-tuning'а в большинстве случаев, особенно при использовании минимума персональных оценок подмножеств. H-Score оказался менее точным, несмотря на свою теоретическую основу. TransRate, наоборот, часто давал неверные рейтинги моделей, превращая приемлемые версии в предположительно более предпочтительные. Аблационные исследования продемонстрировали, что при схожем качестве моделей, transferability metrics становятся менее дискриминативными, что подчеркивает важность разнообразия моделей или дополнительных проверок для поддержки стабильных выборок. ## Значимость Полученные результаты имеют практическое значение для практических задач в сургерии, таких как распознавание фаз операций и анализ сургериальных видео. SITE-метрики помогают уменьшить накладные расходы на подготовку данных, оценивая передовую мощность моделей без полного fine-tuning'а. Это может существенно сократить время и затраты на обучение моделей. Кроме того, результаты могут быть применены в других областях, где требуется оптимизация выбора предобученных моделей, таки

Abstract

Fine-tuning pre-trained models has become a cornerstone of modern machine learning, allowing practitioners to achieve high performance with limited labeled data. In surgical video analysis, where expert annotations are especially time-consuming and costly, identifying the most suitable pre-trained model for a downstream task is both critical and challenging. Source-independent transferability estimation (SITE) offers a solution by predicting how well a model will fine-tune on target data using only its embeddings or outputs, without requiring full retraining. In this work, we formalize SITE for surgical phase recognition and provide the first comprehensive benchmark of three representative metrics, LogME, H-Score, and TransRate, on two diverse datasets (RAMIE and AutoLaparo). Our results show that LogME, particularly when aggregated by the minimum per-subset score, aligns most closely with fine-tuning accuracy; H-Score yields only weak predictive power; and TransRate often inverses true model rankings. Ablation studies show that when candidate models have similar performances, transferability estimates lose discriminative power, emphasizing the importance of maintaining model diversity or using additional validation. We conclude with practical guidelines for model selection and outline future directions toward domain-specific metrics, theoretical foundations, and interactive benchmarking tools.

Ссылки и действия