SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing
2508.21402v1
cs.CV, cs.LG
2025-09-02
Авторы:
Jakub Straka, Ivan Gruber
Резюме на русском
## Контекст
Remote sensing обрастает важностью в силу растущего роста объемов данных, получаемых спутниками. Однако, многие спутниковые датасеты не поступают тегованными, что создает проблему их использования для моделирования. Чтобы справиться с этим, в последние годы набирает обороты **self-supervised learning (SSL)**, позволяющий выводить значимые представления из необработанных данных. В данной работе, мы рассмотрим применение **contrastive self-supervised method** DINO к задаче pretraining на satellite imagery. Мы предлагаем SatDINO — модель, которая отличается как своей архитектурой, так и адаптивностью к уникальным характеристикам спутниковых изображений.
## Метод
**DINO (Decoupled Neural Networks)** является contrastive self-supervised методом, который учитывает изоморфные отношения в данных. Мы предлагаем SatDINO, усовершенствованную версию DINO, адаптированную к спутниковым изображениям. SatDINO включает в себя несколько ключевых новшеств:
- **Ground Sample Distance (GSD) encoding**: позволяет учитывать разрешение, оказывающее влияние на спутниковые данные;
- **Adaptive view sampling**: позволяет выбирать наиболее релевантные виды изображений для обучения;
- **Advanced architectural tweaks**: включают многоуровневые точечные пространственные преобразования, улучшающие вывод представлений.
Мы вводим подробную архитектуру SatDINO, которая объединяет эти элементы в единую систему.
## Результаты
Мы проводим эксперименты на трех различных датасетах спутниковых изображений. Наша модель SatDINO сравнивается с двумя современными моделями, основанными на masked autoencoders (MAE). Результаты показывают, что SatDINO:
- **Превосходит MAE-based модели** в 5 из 6 случаев по метрике top-1 accuracy;
- **Опережает** state-of-the-art модели на двух из трех датасетах;
- **Регулярно демонстрирует высокую stabililty** в разных тестовых настройках.
Кроме того, мы проводим анализ влияния каждого элемента модели, включая GSD encoding и adaptive view sampling.
## Значимость
SatDINO открывает новые возможности для применения self-supervised learning в области remote sensing. Он может быть использован в задачах:
- **Change detection**: определение изменений на поверхности Земли;
- **Land cover classification**: классификация видов покрытия земли;
- **Disaster response**: моделирование ситуаций чрезвычайных ситуаций.
Преимущества SatDINO заключаются в:
- **Higher accuracy** в сравнении с масокнием (MAE);
- **Adaptability** к уникальным характеристикам спутниковых данных;
- **Efficiency**, позволяющая использовать его в реальном времени.
## Выводы
SatDINO достигает результатов, которые отличаются высокой точностью и универсальностью при работе с satellite imagery. Наше рабочее решение может стать новой стандартной моделью для задач self-supervised pretraining в remote sensing. На будущее, мы планируем расширить SatDINO на другие контексты, такие как 3D данные или потоковый сигнал, а также улучшить его в
Abstract
Self-supervised learning has emerged as a powerful tool for remote sensing,
where large amounts of unlabeled data are available. In this work, we
investigate the use of DINO, a contrastive self-supervised method, for
pretraining on remote sensing imagery. We introduce SatDINO, a model tailored
for representation learning in satellite imagery. Through extensive experiments
on multiple datasets in multiple testing setups, we demonstrate that SatDINO
outperforms other state-of-the-art methods based on much more common masked
autoencoders (MAE) and achieves competitive results in multiple benchmarks.
We also provide a rigorous ablation study evaluating SatDINO's individual
components. Finally, we propose a few novel enhancements, such as a new way to
incorporate ground sample distance (GSD) encoding and adaptive view sampling.
These enhancements can be used independently on our SatDINO model. Our code and
trained models are available at: https://github.com/strakaj/SatDINO.
Ссылки и действия
Дополнительные ресурсы: