WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization

2508.09560v2 cs.CV, cs.RO 2025-08-15

Авторы:

Jiahao Wen, Hang Yu, Zhedong Zheng

Резюме на русском

#### Контекст Визуальная геолокализация дронов является критически важной задачей, особенно в условиях перерыжения погоды, таких как дождь и туман. Несмотря на прогресс в этой области, существующие методы сталкиваются с проблемами, связанными с нестабильностью в условиях погоды. Одна из основных проблем заключается в зависимости от ограниченных категорий погодных условий, что снижает общую гибкость и жесткость моделей. Другая проблема заключается в неэффективности разделения сцен и величин погодных условий. Недостаточное отделение этих компонентов приводит к ухудшению точности и обобщаемости. Наша мотивация состоит в том, чтобы разработать метод, который мог бы лучше справляться с этими проблемами и обеспечивать устойчивость в различных погодных условиях. #### Метод Мы предлагаем WeatherPrompt, многомодальный подход, основанный на создании weather-invariant representation в рамках двух ключевых компонентов. Во-первых, мы используем Training-free Weather Reasoning, который использует высокотехнологичные модели с мультимодальным аппаратом для генерирования мультивременных текстовых описаний. Это позволяет сделать модель более устойчивой к неизвестным или сложным погодным условиям. Во-вторых, мы предлагаем Dynamic Gating Mechanism, который позволяет адаптивно регулировать вклад каждой модальности (визуальная и текстовая) в дискретной сети. Этот механизм позволяет лучше разделять scene-weather features. Модель также оптимизируется с помощью cross-modal objectives, таких как image-text contrastive learning и image-text matching, чтобы сблизить в пространстве представлений сцены с разными погодными условиями. #### Результаты Мы проводили многочисленные эксперименты для оценки WeatherPrompt по сравнению с состоянием техники. Наши эксперименты проводились на различных датасетах, включая условия темноты, тумана и снега. Мы заметили, что наш метод достиг высокой точности, при этом повышая Recall@1 на +13.37% при темноте и +18.69% при тумане и снегу. Эти результаты показали, что WeatherPrompt способен лучше справляться с внезапными и сложными условиями, чем существующие методы. #### Значимость WeatherPrompt может быть применен в различных областях, включая автоматизированные системы для доставки товаров, поиск и спасение, а также системы мониторинга и контроля. Этот подход предлагает значительные преимущества, такие как увеличение точности и устойчивость под внезапными условиями. Мы полагаем, что он может продвинуть технологический прогресс в области визуальных геолокаций в реальном времени, повысив уровень безопасности и эффективности в скрытых или труднодоступных условиях. #### Выводы WeatherPrompt представляет собой перспективный подход к визуальной геолока

Abstract

Visual geo-localization for drones faces critical degradation under weather perturbations, \eg, rain and fog, where existing methods struggle with two inherent limitations: 1) Heavy reliance on limited weather categories that constrain generalization, and 2) Suboptimal disentanglement of entangled scene-weather features through pseudo weather categories. We present WeatherPrompt, a multi-modality learning paradigm that establishes weather-invariant representations through fusing the image embedding with the text context. Our framework introduces two key contributions: First, a Training-free Weather Reasoning mechanism that employs off-the-shelf large multi-modality models to synthesize multi-weather textual descriptions through human-like reasoning. It improves the scalability to unseen or complex weather, and could reflect different weather strength. Second, to better disentangle the scene and weather feature, we propose a multi-modality framework with the dynamic gating mechanism driven by the text embedding to adaptively reweight and fuse visual features across modalities. The framework is further optimized by the cross-modal objectives, including image-text contrastive learning and image-text matching, which maps the same scene with different weather conditions closer in the respresentation space. Extensive experiments validate that, under diverse weather conditions, our method achieves competitive recall rates compared to state-of-the-art drone geo-localization methods. Notably, it improves Recall@1 by +13.37\% under night conditions and by 18.69\% under fog and snow conditions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация