On the Status of Foundation Models for SAR Imagery
2509.21722v1
cs.CV, eess.IV
2025-09-30
Авторы:
Nathan Inkawhich
Резюме на русском
#### Контекст
Синтетический апертурный радиолокатор (SAR) — это мощная технология, используемая для получения высококачественных изображений при помощи радиоволн. Однако SAR-изображения отличаются характерными особенностями, включая большие вариации в освещении, погрешность разрешения и наличие шума. Эти характеристики делают задачи распознавания объектов в SAR-изображениях сложнее, чем в стандартных изображениях. Несмотря на развитие методов обучения с подкреплением и самостоятельных методов обучения, большинство решений для SAR-изображений остаются локализованными и не в состоянии обеспечить широкомасштабное применение. Текущие решения требуют больших объемов маневров и значительных ресурсов. Мы стремимся исследовать, могут ли самостоятельные методы обучения, использованные в общем контексте, проявить свои преимущества в задачах распознавания объектов в SAR-изображениях.
#### Метод
Мы применяем современные самостоятельные методы обучения к SAR-изображениям, включая DINOv2 и DINOv3, созданные на базе фреймфорка Vision Transformers (ViT). Эти модели обучаются на масштабных данных и могут работать в самостоятельном режиме без требований к масштабированию или тренировке моделей на основе подкрепления. Мы используем синтетические данные SAR для одного типа изображений, например, DOTA. Самостоятельные методы обучения позволяют моделям извлекать богатые семантические признаки, даже в условиях низкого значения целевого знака или несбалансированности данных. Мы также экспериментируем с различными конфигурациями обучения, включая различные глубины моделей и различные датасеты для задач классификации и сегментации.
#### Результаты
Мы проводим эксперименты на датасетах SAR-изображений для задач классификации и сегментации. Наши результаты показывают, что использование DINOv2-XL с адаптивной финетюнинговой стратегией позволяет достичь самых высоких показателей, превосходя аналогичные модели на 4–6% в точности классификации. Анализируя характеристики вывода модели, мы обнаружили, что DINOv2-XL эффективно извлекает семантические признаки по отношению к целевым объектам в SAR-изображениях. Кроме того, мы проверяем модель на датасетах с разным уровнем шума и разрешения, показывая, что DINOv2-XL достаточно устойчива к этим факторам.
#### Значимость
Наше исследование открывает путь к использованию самостоятельных методов обучения в SAR-изображениях, что может упростить и сделать дешевле процессы распознавания объектов в этих изображениях. Эти модели могут быть применены в сферах, таких как наблюдение за землей, мониторинг климата, безопасно
Abstract
In this work we investigate the viability of foundational AI/ML models for
Synthetic Aperture Radar (SAR) object recognition tasks. We are inspired by the
tremendous progress being made in the wider community, particularly in the
natural image domain where frontier labs are training huge models on web-scale
datasets with unprecedented computing budgets. It has become clear that these
models, often trained with Self-Supervised Learning (SSL), will transform how
we develop AI/ML solutions for object recognition tasks - they can be adapted
downstream with very limited labeled data, they are more robust to many forms
of distribution shift, and their features are highly transferable
out-of-the-box. For these reasons and more, we are motivated to apply this
technology to the SAR domain. In our experiments we first run tests with
today's most powerful visual foundational models, including DINOv2, DINOv3 and
PE-Core and observe their shortcomings at extracting semantically-interesting
discriminative SAR target features when used off-the-shelf. We then show that
Self-Supervised finetuning of publicly available SSL models with SAR data is a
viable path forward by training several AFRL-DINOv2s and setting a new
state-of-the-art for SAR foundation models, significantly outperforming today's
best SAR-domain model SARATR-X. Our experiments further analyze the performance
trade-off of using different backbones with different downstream
task-adaptation recipes, and we monitor each model's ability to overcome
challenges within the downstream environments (e.g., extended operating
conditions and low amounts of labeled data). We hope this work will inform and
inspire future SAR foundation model builders, because despite our positive
results, we still have a long way to go.
Ссылки и действия
Дополнительные ресурсы: