Cross-View Localization via Redundant Sliced Observations and A-Contrario Validation

2508.05369v1 cs.CV 2025-08-09
Авторы:

Yongjun Zhang, Mingtao Xiong, Yi Wan, Gui-Song Xia

Резюме на русском

**Резюме** Успешное определение местоположения смарт-транспорта в GNSS-отсутствующих условиях требует точной кросс-виев-локализации (CVL), которая связывает земные изображения с аэропрограммированными спутниковыми снимками. Однако существующие методы CVL обычно определяют только одну компоненту местоположения — положение камеры, не обеспечивая достаточного количества проверяемых данных для адекватной оценки надежности локализации. В статье предлагается метод Slice-Loc, решающий эту проблему. Он разделяет изображение на подизображения, для которых вычисляются три компоненты локального положения (3-DoF), что обеспечивает задачу сравнения изображений с несколькими независимыми выходами. Для улучшения чувствительности используется формула геометрической жесткости для отсева неточных результатов. Также предложен модельный подход для оценки результата локализации с учетом числа ложных срабатываний (NFA). Тестирование на DReSS-данных показало, что Slice-Loc снижает значительно процент ошибок локализации до 3%, повышая точность до 1.86 м в позиции и 1.24 градусов в ориентации.

Abstract

Cross-view localization (CVL) matches ground-level images with aerial references to determine the geo-position of a camera, enabling smart vehicles to self-localize offline in GNSS-denied environments. However, most CVL methods output only a single observation, the camera pose, and lack the redundant observations required by surveying principles, making it challenging to assess localization reliability through the mutual validation of observational data. To tackle this, we introduce Slice-Loc, a two-stage method featuring an a-contrario reliability validation for CVL. Instead of using the query image as a single input, Slice-Loc divides it into sub-images and estimates the 3-DoF pose for each slice, creating redundant and independent observations. Then, a geometric rigidity formula is proposed to filter out the erroneous 3-DoF poses, and the inliers are merged to generate the final camera pose. Furthermore, we propose a model that quantifies the meaningfulness of localization by estimating the number of false alarms (NFA), according to the distribution of the locations of the sliced images. By eliminating gross errors, Slice-Loc boosts localization accuracy and effectively detects failures. After filtering out mislocalizations, Slice-Loc reduces the proportion of errors exceeding 10 m to under 3\%. In cross-city tests on the DReSS dataset, Slice-Loc cuts the mean localization error from 4.47 m to 1.86 m and the mean orientation error from $\mathbf{3.42^{\circ}}$ to $\mathbf{1.24^{\circ}}$, outperforming state-of-the-art methods. Code and dataset will be available at: https://github.com/bnothing/Slice-Loc.

Ссылки и действия