AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models

2508.10667v1 cs.CV, cs.AI 2025-08-16
Авторы:

Shixiong Xu, Chenghao Zhang, Lubin Fan, Yuan Zhou, Bin Fan, Shiming Xiang, Gaofeng Meng, Jieping Ye

Резюме на русском

#### Контекст Large Visual Language Models (LVLMs) опережают в области coarse-grained geo-localization, но сталкиваются с трудностями при решении fine-grained street-level localization. Эта задача требует точного понимания соответствий между street-view и satellite-view изображениями, чего LVLMs не в состоянии добиться самостоятельно. Это ограничение ограничивает применение LVLMs в ситуациях, требующих точного адресного расположения, таких как городские системы навигации или сервисы доставки. Таким образом, существует необходимость в модели, которая могла бы адекватно работать в этой области, используя микроскопические визуальные сигналы из street-view изображений и макроскопические сигналы из satellite-view изображений. #### Метод Мы предлагаем AddressVLM, модель, которая решает проблему street-view address localization с помощью cross-view alignment tuning. Решение включает два шага: (1) **Cross-View Alignment Tuning**, при котором используется механизм изображения grafting (пересечения изображений) для объединения микро- и макро-сигналов, и (2) **Address Localization Tuning**, нацеленный на обучение модели к адресному расположению. Механизм grafting использует спутниковые изображения в качестве высокоуровневого контекста для street-view изображений. Также предлагается автоматическая механика генерации меток, которая позволяет упростить процесс подготовки данных. Эти компоненты обеспечивают лучшую производительность в сравнении с основными LVLMs. #### Результаты Мы провели эксперименты на двух датасетах street-view VQA, построенных на основе данных street-view image address localization для Pittsburgh и San Francisco. AddressVLM показала существенный прирост в точности адресного расположения, составившую 9% и 12% выше, соответственно, в сравнении с современными LVLMs. Эти результаты подтверждают эффективность использования cross-view alignment tuning и мощности спутникового контекста. Также мы провели анализ точности для различных уровней локализации (от street до city) и показали, что AddressVLM показывает значительный выигрыш в fine-grained scenarios. #### Значимость Модель AddressVLM может применяться в различных сценариях, таких как urban navigation, last-mile delivery, и поиск street-view images на основе адреса. Ее ключевое преимущество заключается в улучшенной точности, полученной благодаря использованию макроскопического контекста и систематичному cross-view alignment tuning. Эта модель также открывает пути для дальнейших исследований в области cross-modal alignment и geo-localization. #### Выводы AddressVLM достигла значительных улучшений в street-view address localization, используя cross-view alignment tuning. Эта модель показывает высокую эффективность в локализации адресов на уровне streets, но имеет потенциал для расширения в другие области geo-localization. Будущие исследования будут сосредоточены на улучшении автоматической механики генерации меток и расширении данных для улучшения производительности на более широкой географической зоне

Abstract

Large visual language models (LVLMs) have demonstrated impressive performance in coarse-grained geo-localization at the country or city level, but they struggle with fine-grained street-level localization within urban areas. In this paper, we explore integrating city-wide address localization capabilities into LVLMs, facilitating flexible address-related question answering using street-view images. A key challenge is that the street-view visual question-and-answer (VQA) data provides only microscopic visual cues, leading to subpar performance in fine-tuned models. To tackle this issue, we incorporate perspective-invariant satellite images as macro cues and propose cross-view alignment tuning including a satellite-view and street-view image grafting mechanism, along with an automatic label generation mechanism. Then LVLM's global understanding of street distribution is enhanced through cross-view matching. Our proposed model, named AddressVLM, consists of two-stage training protocols: cross-view alignment tuning and address localization tuning. Furthermore, we have constructed two street-view VQA datasets based on image address localization datasets from Pittsburgh and San Francisco. Qualitative and quantitative evaluations demonstrate that AddressVLM outperforms counterpart LVLMs by over 9% and 12% in average address localization accuracy on these two datasets, respectively.

Ссылки и действия