Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery

2508.03127v2 cs.CV, cs.AI 2025-08-09
Авторы:

Sai Ma, Zhuang Li, John A Taylor

Резюме на русском

Landsat30-AU — это крупномасштабный датасет для семантического понимания данных спутниковой съемки, сфокусированный на 30-метровом разрешении Landsat (5, 7, 8, 9) для Австралии за 36+ лет. Он включает две части: Landsat30-AU-Cap с 196,262 парами изображения-текст и Landsat30-AU-VQA с 17,725 визуальных задач вопроса-ответа (VQA), подтвержденными людьми. Датасет создан через итеративный процесс с использованием VLMs и ручной проверкой. Результаты нашего эксперимента показывают, что в спутниковой съемке существуют затруднения в понимании, даже с использованием существующих VLMs, в том числе EarthDial. Однако легкий файнтюнинг Qwen2.5-VL-7B на Landsat30-AU улучшил качество полученных ответов, что подтверждает потенциал таких подходов для дальнейшего оптимизации. Данные и код доступны на GitHub.

Abstract

Vision language models (VLMs) that enable natural language interaction with satellite imagery can democratize Earth observation by accelerating expert workflows, making data accessible to non-specialists, and enabling planet-scale automation. However, existing datasets focus mainly on short-term, high-resolution imagery from a limited number of satellites, overlooking low-resolution, multi-satellite, long-term archives, such as Landsat, that are essential for affordable and bias-robust global monitoring. We address this gap with Landsat30-AU, a large-scale vision-language dataset built from 30-meter resolution imagery collected by four Landsat satellites (5, 7, 8, and 9) over Australia, spanning more than 36 years. The dataset includes two components: Landsat30-AU-Cap, containing $196,262$ image-caption pairs, and Landsat30-AU-VQA, comprising 17,725 human-verified visual question answering (VQA) samples across eight remote sensing domains. Both datasets are curated through a bootstrapped pipeline that leverages generic VLMs with iterative refinement and human verification to ensure quality. Our evaluation of eight VLMs on our benchmark reveals that off-the-shelf models struggle to understand satellite imagery. The open-source remote-sensing VLM EarthDial achieves only 0.07 SPIDEr in captioning and a VQA accuracy of 0.48, highlighting the limitations of current approaches. Encouragingly, lightweight fine-tuning of Qwen2.5-VL-7B on Landsat30-AU improves captioning performance from 0.11 to 0.31 SPIDEr and boosts VQA accuracy from 0.74 to 0.87. Code and data are available at https://github.com/papersubmit1/landsat30-au.

Ссылки и действия