Surg-InvNeRF: Invertible NeRF for 3D tracking and reconstruction in surgical vision
2508.09681v1
cs.CV, cs.AI, cs.RO
2025-08-15
Авторы:
Gerardo Loza, Junlei Hu, Dominic Jones, Sharib Ali, Pietro Valdastri
Резюме на русском
#### Контекст
Трекинг 3D-точек — ключевой вопрос в сфере стереоскопического визуального сервинга (SVS), сложным областью в становлении искусственного зрения в хирургии. Он требует постоянного отслеживания объектов в пространстве за счет передачи соответствий между кадрами. Основная проблема в трекинге заключается в необходимости обеспечить точность, устойчивость и высокую скорость вычислений. Существующие подходы часто сталкиваются с проблемами неквалифицированного оценивания движения или ограниченности в 2D-пространстве. Наша мотивация заключается в создании метода, который объединит точность, устойчивость и многослойный анализ пространственного пространства в системах хирургического визуального сервинга.
#### Метод
Мы предлагаем Surg-InvNeRF — новую модель, основанную на Invertible Neural Radiance Fields (InvNeRF), для решения проблемы трекинга в 3D. Наш подход тесно интегрирует нейронные сети с деформируемым NeRF для достижения бидирекционального деформируемого канонического отображения. Surg-InvNeRF предлагает несколько ключевых усовершенствований:
1. **Инверсионная NeRF-архитектура:** Она предлагает оптимизацию в тест-тайме (TTO), которая агрегирует соответствия из существующих методов TTO.
2. **Деформируемый NeRF:** Мы используем этот подход для обеспечения бидирекционального преобразования между деформированной и канонической системой координат.
3. **HexPlanes:** Это модифицированный вариант тензорных слоёв, который позволяет достичь быстрого расчёта.
4. **Процедура выбора пикселей и критерии сходимости:** Мы предлагаем новую процедуру для улучшения точности и скорости сходимости.
Эти технические решения позволяют применять нашу модель в сценариях хирургического визуального сервинга, где необходима высокая точность и устойчивость.
#### Результаты
Мы проводили эксперименты на двух наборах данных: STIR и SCARE. На STIR мы оценивали точность 2D-трекинга, а на SCARE — 3D-трекинг и внедрение кинематических данных. Сравнение с текущими методами показало, что наш метод превосходит них в 2D-трекинге на 50% при той же скорости работы. В 3D-трекинге мы представляем первый TTO-подход, объединяющий точность и структуру, специфичные для деформируемого NeRF-подхода.
#### Значимость
Наш подход может применяться в следующих областях:
- Хирургическое визуальное сервинге для улучшения точности и динамического отслеживания.
- Развитии искусственного зрения для 3D-моделей в реальном времени.
- Обучении и анализу движения в сложных трёхмерных пространствах.
Преимущ
Abstract
We proposed a novel test-time optimisation (TTO) approach framed by a
NeRF-based architecture for long-term 3D point tracking. Most current methods
in point tracking struggle to obtain consistent motion or are limited to 2D
motion. TTO approaches frame the solution for long-term tracking as optimising
a function that aggregates correspondences from other specialised
state-of-the-art methods. Unlike the state-of-the-art on TTO, we propose
parametrising such a function with our new invertible Neural Radiance Field
(InvNeRF) architecture to perform both 2D and 3D tracking in surgical
scenarios. Our approach allows us to exploit the advantages of a
rendering-based approach by supervising the reprojection of pixel
correspondences. It adapts strategies from recent rendering-based methods to
obtain a bidirectional deformable-canonical mapping, to efficiently handle a
defined workspace, and to guide the rays' density. It also presents our
multi-scale HexPlanes for fast inference and a new algorithm for efficient
pixel sampling and convergence criteria. We present results in the STIR and
SCARE datasets, for evaluating point tracking and testing the integration of
kinematic data in our pipeline, respectively. In 2D point tracking, our
approach surpasses the precision and accuracy of the TTO state-of-the-art
methods by nearly 50% on average precision, while competing with other
approaches. In 3D point tracking, this is the first TTO approach, surpassing
feed-forward methods while incorporating the benefits of a deformable
NeRF-based reconstruction.
Ссылки и действия
Дополнительные ресурсы: