SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images
2508.05202v1
cs.CV
2025-08-09
Авторы:
Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang
Резюме на русском
### Резюме
В зондировании Земли спектральные данные играют ключевую роль, однако их полное использование в моделях визуально-языковых инструкций остается недостаточно раскрытым, что приводит к ограниченной точности распознавания объектов. Для решения этой проблемы предлагается SPEX, первая в своем роде визуально-языковая модель, разработанная специально для выделения покрытия земли на основе спектральных данных. Модель использует современные визуально-языковые методы и многомерные признаки, чтобы улучшить точность распознавания объектов покрытия земли на многоканальных спутниковых снимках. Также SPEX включает в себя модель текстовых объяснений, чтобы улучшить понимание результатов модели. На тестовых данных спутниковых снимков, покрывающих разные условия, SPEX показала высокую точность и превосходительные результаты по сравнению с другими моделями. Это является первым примером, где визуально-языковая модель полностью использует спектральные признаки для высокоточного распознавания покрытия земли.
Abstract
Spectral information has long been recognized as a critical cue in remote
sensing observations. Although numerous vision-language models have been
developed for pixel-level interpretation, spectral information remains
underutilized, resulting in suboptimal performance, particularly in
multispectral scenarios. To address this limitation, we construct a
vision-language instruction-following dataset named SPIE, which encodes
spectral priors of land-cover objects into textual attributes recognizable by
large language models (LLMs), based on classical spectral index computations.
Leveraging this dataset, we propose SPEX, a multimodal LLM designed for
instruction-driven land cover extraction. To this end, we introduce several
carefully designed components and training strategies, including multiscale
feature aggregation, token context condensation, and multispectral visual
pre-training, to achieve precise and flexible pixel-level interpretation. To
the best of our knowledge, SPEX is the first multimodal vision-language model
dedicated to land cover extraction in spectral remote sensing imagery.
Extensive experiments on five public multispectral datasets demonstrate that
SPEX consistently outperforms existing state-of-the-art methods in extracting
typical land cover categories such as vegetation, buildings, and water bodies.
Moreover, SPEX is capable of generating textual explanations for its
predictions, thereby enhancing interpretability and user-friendliness. Code
will be released at: https://github.com/MiliLab/SPEX.
Ссылки и действия
Дополнительные ресурсы: