Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction

2509.13652v1 cs.CV, I.4.8; I.4.5 2025-09-19
Авторы:

Yumin Li, Dylan Campbell

Резюме на русском

## Контекст Оценка относительного положения камеры в пространстве является ключевым вопросом в области 3D-реконструкции и локализации. Традиционные методы двух-видовой оценки положения камеры не учитывают метрические расстояния, ограничиваясь получением только масштаба перемещения камеры. Это препятствует решению задач, требующих точных метрических оценок, в случаях широких базисных расстояний, текстурно-дефицитных и отражательных поверхностей. Данная работа адресует эти сложности, предлагая новый подход, основанный на использовании подхода "вид из одной точки" (single-view reconstruction) в сочетании с геометрической оценкой положения. ## Метод Разработанная методика GARPS (Gaussian Alignment for Relative Pose Estimation) представляет собой новую архитектуру, которая использует метрическую модель глубины и методы реконструкции сцены на основе гауссовских моделей. Основной механизм состоит в том, чтобы воссоздать трёхмерную модель каждого кадра используя модель глубины и оценить относительное положение камеры через выравнивание этих трёхмерных моделей. Для того, чтобы повысить точность, алгоритм GARPS использует не только геометрическую информацию, но и консистентность цветовых признаков и семантических особенностей. Метод является тренировочно-свободным, что делает его универсальным и гибким. ## Результаты Исследования проводились на датасете Real-Estate10K, который представляет собой несколько тысяч сцен, включая различные условия съемки. Результаты показали, что GARPS превосходит общую эффективность и точность как классических, так и современных методов оценки относительного положения камеры. Особое внимание в тестах уделено обработке широких базисных расстояний и текстурно-дефицитных областей, где остальные методы часто страдают от погрешности. ## Значимость Разработанный подход имеет широкие перспективы применения в 3D-реконструкции, локализации и системах видеонаблюдения. Он отличается высокой точностью и универсальностью, поскольку не требует предварительного обучения и может обрабатывать даже трудные случаи, такие как отражательные и текстурно-дефицитные поверхности. Данный подход может стать основой для следующих исследований в области многовидовой геометрии и глубокого обучения. ## Выводы Результаты экспериментов подтверждают эффективность нового подхода GARPS в точной оценке относительных положений камер. Этот подход открывает новые горизонты для применения глубокого обучения в сложных сценах, где существуют ограничения по текстуре и базису. Будущими направлениями исследований могут стать улучшения реконструкци

Abstract

Estimating metric relative camera pose from a pair of images is of great importance for 3D reconstruction and localisation. However, conventional two-view pose estimation methods are not metric, with camera translation known only up to a scale, and struggle with wide baselines and textureless or reflective surfaces. This paper introduces GARPS, a training-free framework that casts this problem as the direct alignment of two independently reconstructed 3D scenes. GARPS leverages a metric monocular depth estimator and a Gaussian scene reconstructor to obtain a metric 3D Gaussian Mixture Model (GMM) for each image. It then refines an initial pose from a feed-forward two-view pose estimator by optimising a differentiable GMM alignment objective. This objective jointly considers geometric structure, view-independent colour, anisotropic covariance, and semantic feature consistency, and is robust to occlusions and texture-poor regions without requiring explicit 2D correspondences. Extensive experiments on the Real\-Estate10K dataset demonstrate that GARPS outperforms both classical and state-of-the-art learning-based methods, including MASt3R. These results highlight the potential of bridging single-view perception with multi-view geometry to achieve robust and metric relative pose estimation.

Ссылки и действия