Data-Efficient Learning for Generalizable Surgical Video Understanding
2508.10215v1
eess.IV, cs.CV
2025-08-15
Авторы:
Sahar Nasirihaghighi
Резюме на русском
#### Контекст
Стоимость и доступность хирургического лечения остаются ключевыми проблемами в медицинских системах по всему миру. Хирургические видеоанализаторы, обладающие высоким потенциалом для повышения качества и эффективности хирургических процедур, могут существенно улучшить оперативные работы. Однако их развитие сталкивается с рядом проблем, в том числе скупой аннотацией, высокой специфичностью процессов и большим диапазоном различий между институтами и процедурами. Целью данного исследования является создание моделей, способных эффективно применяться к разным типам хирургических процедур, обеспечивая доступность использования и стабильность в различных условиях клинического применения.
#### Метод
Для решения этих проблем использовались современные методы глубокого обучения, включая архитектуры сверточных нейронных сетей и рекуррентных моделей. Были проведены эксперименты с разными архитектурами для определения наиболее эффективных для решения задач распознавания фаз, действий и событий в хирургических видео. Улучшение моделей проводилось путем разработки новых архитектур и интеграции расширенных модулей. Чтобы снизить зависимость от дорогостоящих экспертных аннотаций, разработаны semi-supervised фреймворки, которые позволяют эффективно использовать большие объемы необъективных видео. Были предложены продвинутые фреймворки, такие как DIST, SemiVT-Surge и ENCORE, которые использовали минимальные объемы меток для повышения точности моделей. Также были созданы два крупных датасета: GynSurg и Cataract-1K, чтобы повысить репродуктивность исследований и способствовать продвижению области.
#### Результаты
Эксперименты проводились на крупных датасетах, включая GynSurg и Cataract-1K. Разработанные архитектуры показали высокую точность в распознавании фаз, действий и событий в хирургических видео. Особое внимание уделено повышению точности при минимальном количестве меток, что достигнуто благодаря использованию semi-supervised подходов. Эти результаты достигли состояния лидера над существующими методами, подтверждая эффективность использованных подходов.
#### Значимость
Результаты имеют широкую сферу применения в медицине, в том числе для создания интеллектуальных систем поддержки хирургических процедур, повышения точности оперативных действий и оценки их качества. Основным преимуществом является то, что модели требуют минимальных данных для обучения и могут применяться в различных клинических условиях. Это сокращает расходы на тренировку и обучение моделей, а также повышает доступность технологий для разных заболеваний и процедур.
#### Выво
Abstract
Advances in surgical video analysis are transforming operating rooms into
intelligent, data-driven environments. Computer-assisted systems support full
surgical workflow, from preoperative planning to intraoperative guidance and
postoperative assessment. However, developing robust and generalizable models
for surgical video understanding remains challenging due to (I) annotation
scarcity, (II) spatiotemporal complexity, and (III) domain gap across
procedures and institutions. This doctoral research aims to bridge the gap
between deep learning-based surgical video analysis in research and its
real-world clinical deployment. To address the core challenge of recognizing
surgical phases, actions, and events, critical for analysis, I benchmarked
state-of-the-art neural network architectures to identify the most effective
designs for each task. I further improved performance by proposing novel
architectures and integrating advanced modules. Given the high cost of expert
annotations and the domain gap across surgical video sources, I focused on
reducing reliance on labeled data. We developed semi-supervised frameworks that
improve model performance across tasks by leveraging large amounts of unlabeled
surgical video. We introduced novel semi-supervised frameworks, including DIST,
SemiVT-Surge, and ENCORE, that achieved state-of-the-art results on challenging
surgical datasets by leveraging minimal labeled data and enhancing model
training through dynamic pseudo-labeling. To support reproducibility and
advance the field, we released two multi-task datasets: GynSurg, the largest
gynecologic laparoscopy dataset, and Cataract-1K, the largest cataract surgery
video dataset. Together, this work contributes to robust, data-efficient, and
clinically scalable solutions for surgical video analysis, laying the
foundation for generalizable AI systems that can meaningfully impact surgical
care and training.
Ссылки и действия
Дополнительные ресурсы: