Surg-InvNeRF: Invertible NeRF for 3D tracking and reconstruction in surgical vision

2508.09681v1 cs.CV, cs.AI, cs.RO 2025-08-15
Авторы:

Gerardo Loza, Junlei Hu, Dominic Jones, Sharib Ali, Pietro Valdastri

Резюме на русском

#### Контекст Трекинг 3D-точек — ключевой вопрос в сфере стереоскопического визуального сервинга (SVS), сложным областью в становлении искусственного зрения в хирургии. Он требует постоянного отслеживания объектов в пространстве за счет передачи соответствий между кадрами. Основная проблема в трекинге заключается в необходимости обеспечить точность, устойчивость и высокую скорость вычислений. Существующие подходы часто сталкиваются с проблемами неквалифицированного оценивания движения или ограниченности в 2D-пространстве. Наша мотивация заключается в создании метода, который объединит точность, устойчивость и многослойный анализ пространственного пространства в системах хирургического визуального сервинга. #### Метод Мы предлагаем Surg-InvNeRF — новую модель, основанную на Invertible Neural Radiance Fields (InvNeRF), для решения проблемы трекинга в 3D. Наш подход тесно интегрирует нейронные сети с деформируемым NeRF для достижения бидирекционального деформируемого канонического отображения. Surg-InvNeRF предлагает несколько ключевых усовершенствований: 1. **Инверсионная NeRF-архитектура:** Она предлагает оптимизацию в тест-тайме (TTO), которая агрегирует соответствия из существующих методов TTO. 2. **Деформируемый NeRF:** Мы используем этот подход для обеспечения бидирекционального преобразования между деформированной и канонической системой координат. 3. **HexPlanes:** Это модифицированный вариант тензорных слоёв, который позволяет достичь быстрого расчёта. 4. **Процедура выбора пикселей и критерии сходимости:** Мы предлагаем новую процедуру для улучшения точности и скорости сходимости. Эти технические решения позволяют применять нашу модель в сценариях хирургического визуального сервинга, где необходима высокая точность и устойчивость. #### Результаты Мы проводили эксперименты на двух наборах данных: STIR и SCARE. На STIR мы оценивали точность 2D-трекинга, а на SCARE — 3D-трекинг и внедрение кинематических данных. Сравнение с текущими методами показало, что наш метод превосходит них в 2D-трекинге на 50% при той же скорости работы. В 3D-трекинге мы представляем первый TTO-подход, объединяющий точность и структуру, специфичные для деформируемого NeRF-подхода. #### Значимость Наш подход может применяться в следующих областях: - Хирургическое визуальное сервинге для улучшения точности и динамического отслеживания. - Развитии искусственного зрения для 3D-моделей в реальном времени. - Обучении и анализу движения в сложных трёхмерных пространствах. Преимущ

Abstract

We proposed a novel test-time optimisation (TTO) approach framed by a NeRF-based architecture for long-term 3D point tracking. Most current methods in point tracking struggle to obtain consistent motion or are limited to 2D motion. TTO approaches frame the solution for long-term tracking as optimising a function that aggregates correspondences from other specialised state-of-the-art methods. Unlike the state-of-the-art on TTO, we propose parametrising such a function with our new invertible Neural Radiance Field (InvNeRF) architecture to perform both 2D and 3D tracking in surgical scenarios. Our approach allows us to exploit the advantages of a rendering-based approach by supervising the reprojection of pixel correspondences. It adapts strategies from recent rendering-based methods to obtain a bidirectional deformable-canonical mapping, to efficiently handle a defined workspace, and to guide the rays' density. It also presents our multi-scale HexPlanes for fast inference and a new algorithm for efficient pixel sampling and convergence criteria. We present results in the STIR and SCARE datasets, for evaluating point tracking and testing the integration of kinematic data in our pipeline, respectively. In 2D point tracking, our approach surpasses the precision and accuracy of the TTO state-of-the-art methods by nearly 50% on average precision, while competing with other approaches. In 3D point tracking, this is the first TTO approach, surpassing feed-forward methods while incorporating the benefits of a deformable NeRF-based reconstruction.

Ссылки и действия