AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models
2508.10667v1
cs.CV, cs.AI
2025-08-16
Авторы:
Shixiong Xu, Chenghao Zhang, Lubin Fan, Yuan Zhou, Bin Fan, Shiming Xiang, Gaofeng Meng, Jieping Ye
Резюме на русском
#### Контекст
Large Visual Language Models (LVLMs) опережают в области coarse-grained geo-localization, но сталкиваются с трудностями при решении fine-grained street-level localization. Эта задача требует точного понимания соответствий между street-view и satellite-view изображениями, чего LVLMs не в состоянии добиться самостоятельно. Это ограничение ограничивает применение LVLMs в ситуациях, требующих точного адресного расположения, таких как городские системы навигации или сервисы доставки. Таким образом, существует необходимость в модели, которая могла бы адекватно работать в этой области, используя микроскопические визуальные сигналы из street-view изображений и макроскопические сигналы из satellite-view изображений.
#### Метод
Мы предлагаем AddressVLM, модель, которая решает проблему street-view address localization с помощью cross-view alignment tuning. Решение включает два шага: (1) **Cross-View Alignment Tuning**, при котором используется механизм изображения grafting (пересечения изображений) для объединения микро- и макро-сигналов, и (2) **Address Localization Tuning**, нацеленный на обучение модели к адресному расположению. Механизм grafting использует спутниковые изображения в качестве высокоуровневого контекста для street-view изображений. Также предлагается автоматическая механика генерации меток, которая позволяет упростить процесс подготовки данных. Эти компоненты обеспечивают лучшую производительность в сравнении с основными LVLMs.
#### Результаты
Мы провели эксперименты на двух датасетах street-view VQA, построенных на основе данных street-view image address localization для Pittsburgh и San Francisco. AddressVLM показала существенный прирост в точности адресного расположения, составившую 9% и 12% выше, соответственно, в сравнении с современными LVLMs. Эти результаты подтверждают эффективность использования cross-view alignment tuning и мощности спутникового контекста. Также мы провели анализ точности для различных уровней локализации (от street до city) и показали, что AddressVLM показывает значительный выигрыш в fine-grained scenarios.
#### Значимость
Модель AddressVLM может применяться в различных сценариях, таких как urban navigation, last-mile delivery, и поиск street-view images на основе адреса. Ее ключевое преимущество заключается в улучшенной точности, полученной благодаря использованию макроскопического контекста и систематичному cross-view alignment tuning. Эта модель также открывает пути для дальнейших исследований в области cross-modal alignment и geo-localization.
#### Выводы
AddressVLM достигла значительных улучшений в street-view address localization, используя cross-view alignment tuning. Эта модель показывает высокую эффективность в локализации адресов на уровне streets, но имеет потенциал для расширения в другие области geo-localization. Будущие исследования будут сосредоточены на улучшении автоматической механики генерации меток и расширении данных для улучшения производительности на более широкой географической зоне
Abstract
Large visual language models (LVLMs) have demonstrated impressive performance
in coarse-grained geo-localization at the country or city level, but they
struggle with fine-grained street-level localization within urban areas. In
this paper, we explore integrating city-wide address localization capabilities
into LVLMs, facilitating flexible address-related question answering using
street-view images. A key challenge is that the street-view visual
question-and-answer (VQA) data provides only microscopic visual cues, leading
to subpar performance in fine-tuned models. To tackle this issue, we
incorporate perspective-invariant satellite images as macro cues and propose
cross-view alignment tuning including a satellite-view and street-view image
grafting mechanism, along with an automatic label generation mechanism. Then
LVLM's global understanding of street distribution is enhanced through
cross-view matching. Our proposed model, named AddressVLM, consists of
two-stage training protocols: cross-view alignment tuning and address
localization tuning. Furthermore, we have constructed two street-view VQA
datasets based on image address localization datasets from Pittsburgh and San
Francisco. Qualitative and quantitative evaluations demonstrate that AddressVLM
outperforms counterpart LVLMs by over 9% and 12% in average address
localization accuracy on these two datasets, respectively.
Ссылки и действия
Дополнительные ресурсы: