On the Status of Foundation Models for SAR Imagery

2509.21722v1 cs.CV, eess.IV 2025-09-30
Авторы:

Nathan Inkawhich

Резюме на русском

#### Контекст Синтетический апертурный радиолокатор (SAR) — это мощная технология, используемая для получения высококачественных изображений при помощи радиоволн. Однако SAR-изображения отличаются характерными особенностями, включая большие вариации в освещении, погрешность разрешения и наличие шума. Эти характеристики делают задачи распознавания объектов в SAR-изображениях сложнее, чем в стандартных изображениях. Несмотря на развитие методов обучения с подкреплением и самостоятельных методов обучения, большинство решений для SAR-изображений остаются локализованными и не в состоянии обеспечить широкомасштабное применение. Текущие решения требуют больших объемов маневров и значительных ресурсов. Мы стремимся исследовать, могут ли самостоятельные методы обучения, использованные в общем контексте, проявить свои преимущества в задачах распознавания объектов в SAR-изображениях. #### Метод Мы применяем современные самостоятельные методы обучения к SAR-изображениям, включая DINOv2 и DINOv3, созданные на базе фреймфорка Vision Transformers (ViT). Эти модели обучаются на масштабных данных и могут работать в самостоятельном режиме без требований к масштабированию или тренировке моделей на основе подкрепления. Мы используем синтетические данные SAR для одного типа изображений, например, DOTA. Самостоятельные методы обучения позволяют моделям извлекать богатые семантические признаки, даже в условиях низкого значения целевого знака или несбалансированности данных. Мы также экспериментируем с различными конфигурациями обучения, включая различные глубины моделей и различные датасеты для задач классификации и сегментации. #### Результаты Мы проводим эксперименты на датасетах SAR-изображений для задач классификации и сегментации. Наши результаты показывают, что использование DINOv2-XL с адаптивной финетюнинговой стратегией позволяет достичь самых высоких показателей, превосходя аналогичные модели на 4–6% в точности классификации. Анализируя характеристики вывода модели, мы обнаружили, что DINOv2-XL эффективно извлекает семантические признаки по отношению к целевым объектам в SAR-изображениях. Кроме того, мы проверяем модель на датасетах с разным уровнем шума и разрешения, показывая, что DINOv2-XL достаточно устойчива к этим факторам. #### Значимость Наше исследование открывает путь к использованию самостоятельных методов обучения в SAR-изображениях, что может упростить и сделать дешевле процессы распознавания объектов в этих изображениях. Эти модели могут быть применены в сферах, таких как наблюдение за землей, мониторинг климата, безопасно

Abstract

In this work we investigate the viability of foundational AI/ML models for Synthetic Aperture Radar (SAR) object recognition tasks. We are inspired by the tremendous progress being made in the wider community, particularly in the natural image domain where frontier labs are training huge models on web-scale datasets with unprecedented computing budgets. It has become clear that these models, often trained with Self-Supervised Learning (SSL), will transform how we develop AI/ML solutions for object recognition tasks - they can be adapted downstream with very limited labeled data, they are more robust to many forms of distribution shift, and their features are highly transferable out-of-the-box. For these reasons and more, we are motivated to apply this technology to the SAR domain. In our experiments we first run tests with today's most powerful visual foundational models, including DINOv2, DINOv3 and PE-Core and observe their shortcomings at extracting semantically-interesting discriminative SAR target features when used off-the-shelf. We then show that Self-Supervised finetuning of publicly available SSL models with SAR data is a viable path forward by training several AFRL-DINOv2s and setting a new state-of-the-art for SAR foundation models, significantly outperforming today's best SAR-domain model SARATR-X. Our experiments further analyze the performance trade-off of using different backbones with different downstream task-adaptation recipes, and we monitor each model's ability to overcome challenges within the downstream environments (e.g., extended operating conditions and low amounts of labeled data). We hope this work will inform and inspire future SAR foundation model builders, because despite our positive results, we still have a long way to go.

Ссылки и действия