MFAF: An EVA02-Based Multi-scale Frequency Attention Fusion Method for Cross-View Geo-Localization
2509.12673v1
cs.CV, cs.AI, cs.LG
2025-09-18
Авторы:
YiTong Liu, TianZhu Liu, YanFeng GU
Резюме на русском
#### Контекст
**Cross-view geo-localization** — это задача определения географического положения картинки, спутникового изображения или другого изображения, применяясь к галерее похожих изображений. Она сильно ограничена внешними факторами, такими как переменные точки зрения, изменения освещения, интерфейсные факторы. Эти факторы сильно затрудняют выделение достаточно дискриминативных признаков. Существующие решения часто опираются на сегментацию фичи из карты признаков или использование однородных моделей, не учитывая корреляцию между различными частотными особенностями и пространственным контекстом. В этой работе мы предлагаем новую модель, MFAF, которая адресует эти проблемы.
#### Метод
Методология MFAF основана на **EVA02** (Efficient Vision Transformer) и включает два основных модуля: **Multi-Frequency Branch-wise Block (MFB)** и **Frequency-aware Spatial Attention (FSA)**. **MFB** — это блок, который способен выделять **логические фичи (low-frequency)** и **крайности (high-frequency)** на разных уровнях масштаба. Это позволяет добиться более стабильных и точных представлений признаков. Затем **FSA** множественным образом адаптирует внимание к определенным частям частотных фичей, сильно уменьшая шум и влияние вариабельного зрения. Эти модули формируются в интегрированную систему с EVA02, чтобы повысить точность и качество локализации.
#### Результаты
Мы проверили MFAF на нескольких стандартных датасетах: **University-1652**, **SUES-200** и **Dense-UAV**. Эксперименты показали, что наша модель показывает высокую точность в **cross-view geo-localization** и **drone localization/navigation** задачах. Мы сравнили результаты с популярными методами (например, GF-Net, ST-Net) и установили, что **MFAF** показывает значительные преимущества в объеме деталей, локальной точности и устойчивости в условиях переменных точек зрения.
#### Значимость
Метод MFAF имеет широкие **применения в области геолокации**, **робототехники** и **аэронавигации**. Он позволяет повысить уровень точности и устойчивости в условиях сложной визуальной среды. Наши достижения включают новую архитектуру с возможностью **мощного внимания к частотам** и **многоуровневым представлениям**, что может способствовать развитию моделей geo-localization в будущем.
#### Выводы
Мы предложили MFAF — мощный метод для решения задач **cross-view geo-localization**, основанный на EVA02. Метод доказал высокую эффективность, благодаря интеграции **MFB** и **FSA**, обеспечивающей более детальное и устойчивое описание фичей. Мы планируем дальнейшие исследования, включая улучшение моделей для работы в разных условиях визуального восприятия.
Abstract
Cross-view geo-localization aims to determine the geographical location of a
query image by matching it against a gallery of images. This task is
challenging due to the significant appearance variations of objects observed
from variable views, along with the difficulty in extracting discriminative
features. Existing approaches often rely on extracting features through feature
map segmentation while neglecting spatial and semantic information. To address
these issues, we propose the EVA02-based Multi-scale Frequency Attention Fusion
(MFAF) method. The MFAF method consists of Multi-Frequency Branch-wise Block
(MFB) and the Frequency-aware Spatial Attention (FSA) module. The MFB block
effectively captures both low-frequency structural features and high-frequency
edge details across multiple scales, improving the consistency and robustness
of feature representations across various viewpoints. Meanwhile, the FSA module
adaptively focuses on the key regions of frequency features, significantly
mitigating the interference caused by background noise and viewpoint
variability. Extensive experiments on widely recognized benchmarks, including
University-1652, SUES-200, and Dense-UAV, demonstrate that the MFAF method
achieves competitive performance in both drone localization and drone
navigation tasks.
Ссылки и действия
Дополнительные ресурсы: