SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing

2508.21402v1 cs.CV, cs.LG 2025-09-02

Авторы:

Jakub Straka, Ivan Gruber

Резюме на русском

## Контекст Remote sensing обрастает важностью в силу растущего роста объемов данных, получаемых спутниками. Однако, многие спутниковые датасеты не поступают тегованными, что создает проблему их использования для моделирования. Чтобы справиться с этим, в последние годы набирает обороты **self-supervised learning (SSL)**, позволяющий выводить значимые представления из необработанных данных. В данной работе, мы рассмотрим применение **contrastive self-supervised method** DINO к задаче pretraining на satellite imagery. Мы предлагаем SatDINO — модель, которая отличается как своей архитектурой, так и адаптивностью к уникальным характеристикам спутниковых изображений. ## Метод **DINO (Decoupled Neural Networks)** является contrastive self-supervised методом, который учитывает изоморфные отношения в данных. Мы предлагаем SatDINO, усовершенствованную версию DINO, адаптированную к спутниковым изображениям. SatDINO включает в себя несколько ключевых новшеств: - **Ground Sample Distance (GSD) encoding**: позволяет учитывать разрешение, оказывающее влияние на спутниковые данные; - **Adaptive view sampling**: позволяет выбирать наиболее релевантные виды изображений для обучения; - **Advanced architectural tweaks**: включают многоуровневые точечные пространственные преобразования, улучшающие вывод представлений. Мы вводим подробную архитектуру SatDINO, которая объединяет эти элементы в единую систему. ## Результаты Мы проводим эксперименты на трех различных датасетах спутниковых изображений. Наша модель SatDINO сравнивается с двумя современными моделями, основанными на masked autoencoders (MAE). Результаты показывают, что SatDINO: - **Превосходит MAE-based модели** в 5 из 6 случаев по метрике top-1 accuracy; - **Опережает** state-of-the-art модели на двух из трех датасетах; - **Регулярно демонстрирует высокую stabililty** в разных тестовых настройках. Кроме того, мы проводим анализ влияния каждого элемента модели, включая GSD encoding и adaptive view sampling. ## Значимость SatDINO открывает новые возможности для применения self-supervised learning в области remote sensing. Он может быть использован в задачах: - **Change detection**: определение изменений на поверхности Земли; - **Land cover classification**: классификация видов покрытия земли; - **Disaster response**: моделирование ситуаций чрезвычайных ситуаций. Преимущества SatDINO заключаются в: - **Higher accuracy** в сравнении с масокнием (MAE); - **Adaptability** к уникальным характеристикам спутниковых данных; - **Efficiency**, позволяющая использовать его в реальном времени. ## Выводы SatDINO достигает результатов, которые отличаются высокой точностью и универсальностью при работе с satellite imagery. Наше рабочее решение может стать новой стандартной моделью для задач self-supervised pretraining в remote sensing. На будущее, мы планируем расширить SatDINO на другие контексты, такие как 3D данные или потоковый сигнал, а также улучшить его в

Abstract

Self-supervised learning has emerged as a powerful tool for remote sensing, where large amounts of unlabeled data are available. In this work, we investigate the use of DINO, a contrastive self-supervised method, for pretraining on remote sensing imagery. We introduce SatDINO, a model tailored for representation learning in satellite imagery. Through extensive experiments on multiple datasets in multiple testing setups, we demonstrate that SatDINO outperforms other state-of-the-art methods based on much more common masked autoencoders (MAE) and achieves competitive results in multiple benchmarks. We also provide a rigorous ablation study evaluating SatDINO's individual components. Finally, we propose a few novel enhancements, such as a new way to incorporate ground sample distance (GSD) encoding and adaptive view sampling. These enhancements can be used independently on our SatDINO model. Our code and trained models are available at: https://github.com/strakaj/SatDINO.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация