GLEAM: Learning to Match and Explain in Cross-View Geo-Localization

2509.07450v1 cs.CV, cs.CL 2025-09-11
Авторы:

Xudong Lu, Zhi Zheng, Yi Wan, Yongxiang Yao, Annan Wang, Renrui Zhang, Panwang Xia, Qiong Wu, Qingyun Li, Weifeng Lin, Xiangyu Zhao, Xue Yang, Hongsheng Li

Резюме на русском

## Контекст Geo-localization (CVGL) — это особая область распознавания, нацеленная на выявление соответствий между изображениями, полученными с разных точек зрения одной географической точки. Тем не менее, существующие CVGL-модели обычно ограничиваются одним видом или моделью данных, и их подход к прямому визуальному сопоставлению лишён понятности. Они просто определяют соответствие двух изображений, не объясняя причины этого соответствия. Данная работа затрагивает эту проблему, предлагая GLEAM-C, модель, которая объединяет несколько видов и моделей данных, включая UAV-изображения, спутниковые снимки, карты улиц и фотографии из первого лица. GLEAM-C основывается на модели, созданной для улучшения точности и эффективности обучения. Для расширения возможностей CVGL, авторы также предлагают GLEAM-X, которая добавляет понятность в процесс сопоставления, позволяя многомодальным моделям визуального рассуждения объяснять свои решения. ## Метод GLEAM-C и GLEAM-X основываются на модели, построенной на базе многомодальных моделей визуального рассуждения. Они используют многомодальную архитектуру, включающую детекторы объектов, многомодальные концептные слои и многомодальные модели языка, чтобы сопоставить входные данные из разных моделей. GLEAM-C рассчитана на оптимизацию процесса обучения, с помощью новых технических решений. GLEAM-X использует модели языка для генерации ответов на вопросы о соответствии изображений. Для проверки моделей, создана билингвистическая бенчмарк-коллекция, используя GPT-4o и Doubao-1.5-Thinking-Vision-Pro для создания данных для обучения и тестирования. Данные были проанализированы и откорректированы ручными редакциями, чтобы обеспечить возможность систематической оценки. ## Результаты В ходе экспериментов GLEAM-C продемонстрировала высокую точность сопоставления в разных моделях данных, сопоставимая с оптимальными моделями CVGL. GLEAM-X показала существенное улучшение в интерпретируемости сопоставления, определяя причины соответствия двух изображений. Это включает в себя визуальный анализ, основанный на языковых моделях, которые объясняют, почему две картинки соответствуют друг другу. Это улучшает понимание работы модели, делает ее более понятной и систематично тестируемой. ## Значимость Результаты моделей могут быть применены в различных сферах, включая географическое локализационное моделирование, мониторинг среды, безопасность и навигацию. Улучшение точности сопоставления и понятность решений делают GLEAM-C и GLEAM-X ключевыми инструментами в этих областях. Возможным последствием могут

Abstract

Cross-View Geo-Localization (CVGL) focuses on identifying correspondences between images captured from distinct perspectives of the same geographical location. However, existing CVGL approaches are typically restricted to a single view or modality, and their direct visual matching strategy lacks interpretability: they merely predict whether two images correspond, without explaining the rationale behind the match. In this paper, we present GLEAM-C, a foundational CVGL model that unifies multiple views and modalities-including UAV imagery, street maps, panoramic views, and ground photographs-by aligning them exclusively with satellite imagery. Our framework enhances training efficiency through optimized implementation while achieving accuracy comparable to prior modality-specific CVGL models through a two-phase training strategy. Moreover, to address the lack of interpretability in traditional CVGL methods, we leverage the reasoning capabilities of multimodal large language models (MLLMs) to propose a new task, GLEAM-X, which combines cross-view correspondence prediction with explainable reasoning. To support this task, we construct a bilingual benchmark using GPT-4o and Doubao-1.5-Thinking-Vision-Pro to generate training and testing data. The test set is further refined through detailed human revision, enabling systematic evaluation of explainable cross-view reasoning and advancing transparency and scalability in geo-localization. Together, GLEAM-C and GLEAM-X form a comprehensive CVGL pipeline that integrates multi-modal, multi-view alignment with interpretable correspondence analysis, unifying accurate cross-view matching with explainable reasoning and advancing Geo-Localization by enabling models to better Explain And Match. Code and datasets used in this work will be made publicly accessible at https://github.com/Lucky-Lance/GLEAM.

Ссылки и действия