Multi-modal Uncertainty Robust Tree Cover Segmentation For High-Resolution Remote Sensing Images

2509.04870v1 eess.IV, cs.CV 2025-09-09
Авторы:

Yuanyuan Gui, Wei Li, Yinjian Wang, Xiang-Gen Xia, Mauro Marty, Christian Ginzler, Zuyuan Wang

Резюме на русском

## Контекст Изучение зеленого покрова земли, включая детальное разбиение на индивидуальные деревья, является ключевым заданием в сфере географических и экологических исследований. Это важно для поддержки принятия решений в таких областях, как урбанизация, масштабирование лесов, мониторинг экосистем и экологическое оценование. Технологии семантической сегментации, объединяющие различные виды данных, такие как оптические снимки, LiDAR и SAR, достигли высокой точности. Однако, существуют серьезные затруднения, связанные с временными различиями в получении данных, которые могут привести к несоответствию между модальностями. Это приводит к неопределенности в разделении зон, особенно при работе с высокоразрешными изображениями. Наша исследовательская группа ставит себе цель сконцентрироваться на решении этой проблемы, создав метод, который не только устраняет неопределенность, но и позволяет ей работать в пользу улучшения точности. ## Метод Мы предлагаем **MURTreeFormer**, многомодальный фреймворк сегментации, который стремится устранить неопределенность и улучшить точность разделения покрова деревьев. Основная идея заключается в использовании одной модальности как основной, в то время как другие модальности будут относиться к вспомогательным. Мы используем вариационную автоэнкодерическую модель (VAE) для моделирования и работы с неопределенностью в вспомогательных модальностях. Неуверенные области обрабатываются с помощью процедуры ресемплинга, которая позволяет улучшить качество данных, используя основную модальность. Более того, в декодере внедрена модель **Gradient Magnitude Attention (GMA)**, которая направляет внимание модели на характеристики, схожие с деревьями, а также **Lightweight Refinement Head (RH)**, используемую для сохранения тонких деталей. Эта гибкая конфигурация позволяет модели лучше адаптироваться к изменениям в зеленом покрове. ## Результаты Мы провели значительные эксперименты на двух многомодальных датасетах: из Шанхая и Цюриха. В этих экспериментах использовались ряд модальностей, включая оптические снимки, LiDAR и SAR. Результаты показали, что **MURTreeFormer** значительно повышает точность сегментации в сравнении с современными методами, особенно в условиях временных расхождений между модальностями. Мы также обнаружили, что наша модель эффективно обрабатывает неопределенность, связанную с разными условиями погоды и факторами, влияющими на качество изображений. Это указывает на то, что **MURTreeFormer** может быть применено в реальных условиях, где нет возможности контролировать временные различия. ## Значимость Результаты нашего исследования им

Abstract

Recent advances in semantic segmentation of multi-modal remote sensing images have significantly improved the accuracy of tree cover mapping, supporting applications in urban planning, forest monitoring, and ecological assessment. Integrating data from multiple modalities-such as optical imagery, light detection and ranging (LiDAR), and synthetic aperture radar (SAR)-has shown superior performance over single-modality methods. However, these data are often acquired days or even months apart, during which various changes may occur, such as vegetation disturbances (e.g., logging, and wildfires) and variations in imaging quality. Such temporal misalignments introduce cross-modal uncertainty, especially in high-resolution imagery, which can severely degrade segmentation accuracy. To address this challenge, we propose MURTreeFormer, a novel multi-modal segmentation framework that mitigates and leverages aleatoric uncertainty for robust tree cover mapping. MURTreeFormer treats one modality as primary and others as auxiliary, explicitly modeling patch-level uncertainty in the auxiliary modalities via a probabilistic latent representation. Uncertain patches are identified and reconstructed from the primary modality's distribution through a VAE-based resampling mechanism, producing enhanced auxiliary features for fusion. In the decoder, a gradient magnitude attention (GMA) module and a lightweight refinement head (RH) are further integrated to guide attention toward tree-like structures and to preserve fine-grained spatial details. Extensive experiments on multi-modal datasets from Shanghai and Zurich demonstrate that MURTreeFormer significantly improves segmentation performance and effectively reduces the impact of temporally induced aleatoric uncertainty.

Ссылки и действия