Analysis of Transferability Estimation Metrics for Surgical Phase Recognition
2508.16730v1
eess.IV, cs.CV, cs.LG
2025-08-27
Авторы:
Prabhant Singh, Yiping Li, Yasmina Al Khalil
Резюме на русском
## Контекст
Область исследования — анализ методов для оценки передовой мощности (transferability) моделей машинного обучения в задачах анализа сургиских видео. Одним из основных заданий в этой области является выбор наиболее подходящей предобученной модели для дальнейшего fine-tuning на задачу распознавания фаз сургерии. Этот выбор становится критически важным в условиях ограниченного количества меток, необходимых для обучения. Одним из подходов является source-independent transferability estimation (SITE), позволяющий предсказать эффективность fine-tuning'а на основе существующих векторов выхода или эмбеддингов модели, не требуя полной перепрограммировки. Несмотря на преимущества SITE, существуют проблемы, такие как ограниченная общность и возможность неточных оценок, которые могут привести к недостоверному выбору модели. Цель данного исследования — оценить и сравнить три широко используемых метрики SITE в контексте задачи распознавания фаз в сургерии (surgical phase recognition).
## Метод
Методология основывается на сравнительном анализе трех метрик SITE: LogME, H-Score и TransRate. Данные для тестирования были взяты из двух различных наборов данных: RAMIE и AutoLaparo. Эти метрики были измерены для трех предобученных моделей, а результаты были сравнивались с реальным fine-tuning'ом для проверки точности предсказаний. Аблационные эксперименты проводились для оценки значимости различных аспектов, таких как качество модели, размеры датасетов и их разнообразие. Для визуализации и анализа результатов использовались графики, такие как boxplots и scatter plots.
## Результаты
Результаты экспериментов показали, что LogME показывает наиболее точные предсказания для fine-tuning'а в большинстве случаев, особенно при использовании минимума персональных оценок подмножеств. H-Score оказался менее точным, несмотря на свою теоретическую основу. TransRate, наоборот, часто давал неверные рейтинги моделей, превращая приемлемые версии в предположительно более предпочтительные. Аблационные исследования продемонстрировали, что при схожем качестве моделей, transferability metrics становятся менее дискриминативными, что подчеркивает важность разнообразия моделей или дополнительных проверок для поддержки стабильных выборок.
## Значимость
Полученные результаты имеют практическое значение для практических задач в сургерии, таких как распознавание фаз операций и анализ сургериальных видео. SITE-метрики помогают уменьшить накладные расходы на подготовку данных, оценивая передовую мощность моделей без полного fine-tuning'а. Это может существенно сократить время и затраты на обучение моделей. Кроме того, результаты могут быть применены в других областях, где требуется оптимизация выбора предобученных моделей, таки
Abstract
Fine-tuning pre-trained models has become a cornerstone of modern machine
learning, allowing practitioners to achieve high performance with limited
labeled data. In surgical video analysis, where expert annotations are
especially time-consuming and costly, identifying the most suitable pre-trained
model for a downstream task is both critical and challenging.
Source-independent transferability estimation (SITE) offers a solution by
predicting how well a model will fine-tune on target data using only its
embeddings or outputs, without requiring full retraining. In this work, we
formalize SITE for surgical phase recognition and provide the first
comprehensive benchmark of three representative metrics, LogME, H-Score, and
TransRate, on two diverse datasets (RAMIE and AutoLaparo). Our results show
that LogME, particularly when aggregated by the minimum per-subset score,
aligns most closely with fine-tuning accuracy; H-Score yields only weak
predictive power; and TransRate often inverses true model rankings. Ablation
studies show that when candidate models have similar performances,
transferability estimates lose discriminative power, emphasizing the importance
of maintaining model diversity or using additional validation. We conclude with
practical guidelines for model selection and outline future directions toward
domain-specific metrics, theoretical foundations, and interactive benchmarking
tools.
Ссылки и действия
Дополнительные ресурсы: