GLEAM: Learning to Match and Explain in Cross-View Geo-Localization
2509.07450v1
cs.CV, cs.CL
2025-09-11
Авторы:
Xudong Lu, Zhi Zheng, Yi Wan, Yongxiang Yao, Annan Wang, Renrui Zhang, Panwang Xia, Qiong Wu, Qingyun Li, Weifeng Lin, Xiangyu Zhao, Xue Yang, Hongsheng Li
Резюме на русском
## Контекст
Geo-localization (CVGL) — это особая область распознавания, нацеленная на выявление соответствий между изображениями, полученными с разных точек зрения одной географической точки. Тем не менее, существующие CVGL-модели обычно ограничиваются одним видом или моделью данных, и их подход к прямому визуальному сопоставлению лишён понятности. Они просто определяют соответствие двух изображений, не объясняя причины этого соответствия. Данная работа затрагивает эту проблему, предлагая GLEAM-C, модель, которая объединяет несколько видов и моделей данных, включая UAV-изображения, спутниковые снимки, карты улиц и фотографии из первого лица. GLEAM-C основывается на модели, созданной для улучшения точности и эффективности обучения. Для расширения возможностей CVGL, авторы также предлагают GLEAM-X, которая добавляет понятность в процесс сопоставления, позволяя многомодальным моделям визуального рассуждения объяснять свои решения.
## Метод
GLEAM-C и GLEAM-X основываются на модели, построенной на базе многомодальных моделей визуального рассуждения. Они используют многомодальную архитектуру, включающую детекторы объектов, многомодальные концептные слои и многомодальные модели языка, чтобы сопоставить входные данные из разных моделей. GLEAM-C рассчитана на оптимизацию процесса обучения, с помощью новых технических решений. GLEAM-X использует модели языка для генерации ответов на вопросы о соответствии изображений. Для проверки моделей, создана билингвистическая бенчмарк-коллекция, используя GPT-4o и Doubao-1.5-Thinking-Vision-Pro для создания данных для обучения и тестирования. Данные были проанализированы и откорректированы ручными редакциями, чтобы обеспечить возможность систематической оценки.
## Результаты
В ходе экспериментов GLEAM-C продемонстрировала высокую точность сопоставления в разных моделях данных, сопоставимая с оптимальными моделями CVGL. GLEAM-X показала существенное улучшение в интерпретируемости сопоставления, определяя причины соответствия двух изображений. Это включает в себя визуальный анализ, основанный на языковых моделях, которые объясняют, почему две картинки соответствуют друг другу. Это улучшает понимание работы модели, делает ее более понятной и систематично тестируемой.
## Значимость
Результаты моделей могут быть применены в различных сферах, включая географическое локализационное моделирование, мониторинг среды, безопасность и навигацию. Улучшение точности сопоставления и понятность решений делают GLEAM-C и GLEAM-X ключевыми инструментами в этих областях. Возможным последствием могут
Abstract
Cross-View Geo-Localization (CVGL) focuses on identifying correspondences
between images captured from distinct perspectives of the same geographical
location. However, existing CVGL approaches are typically restricted to a
single view or modality, and their direct visual matching strategy lacks
interpretability: they merely predict whether two images correspond, without
explaining the rationale behind the match. In this paper, we present GLEAM-C, a
foundational CVGL model that unifies multiple views and modalities-including
UAV imagery, street maps, panoramic views, and ground photographs-by aligning
them exclusively with satellite imagery. Our framework enhances training
efficiency through optimized implementation while achieving accuracy comparable
to prior modality-specific CVGL models through a two-phase training strategy.
Moreover, to address the lack of interpretability in traditional CVGL methods,
we leverage the reasoning capabilities of multimodal large language models
(MLLMs) to propose a new task, GLEAM-X, which combines cross-view
correspondence prediction with explainable reasoning. To support this task, we
construct a bilingual benchmark using GPT-4o and Doubao-1.5-Thinking-Vision-Pro
to generate training and testing data. The test set is further refined through
detailed human revision, enabling systematic evaluation of explainable
cross-view reasoning and advancing transparency and scalability in
geo-localization. Together, GLEAM-C and GLEAM-X form a comprehensive CVGL
pipeline that integrates multi-modal, multi-view alignment with interpretable
correspondence analysis, unifying accurate cross-view matching with explainable
reasoning and advancing Geo-Localization by enabling models to better Explain
And Match. Code and datasets used in this work will be made publicly accessible
at https://github.com/Lucky-Lance/GLEAM.
Ссылки и действия
Дополнительные ресурсы: