Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery
2508.03127v2
cs.CV, cs.AI
2025-08-09
Авторы:
Sai Ma, Zhuang Li, John A Taylor
Резюме на русском
Landsat30-AU — это крупномасштабный датасет для семантического понимания данных спутниковой съемки, сфокусированный на 30-метровом разрешении Landsat (5, 7, 8, 9) для Австралии за 36+ лет. Он включает две части: Landsat30-AU-Cap с 196,262 парами изображения-текст и Landsat30-AU-VQA с 17,725 визуальных задач вопроса-ответа (VQA), подтвержденными людьми. Датасет создан через итеративный процесс с использованием VLMs и ручной проверкой. Результаты нашего эксперимента показывают, что в спутниковой съемке существуют затруднения в понимании, даже с использованием существующих VLMs, в том числе EarthDial. Однако легкий файнтюнинг Qwen2.5-VL-7B на Landsat30-AU улучшил качество полученных ответов, что подтверждает потенциал таких подходов для дальнейшего оптимизации. Данные и код доступны на GitHub.
Abstract
Vision language models (VLMs) that enable natural language interaction with
satellite imagery can democratize Earth observation by accelerating expert
workflows, making data accessible to non-specialists, and enabling planet-scale
automation. However, existing datasets focus mainly on short-term,
high-resolution imagery from a limited number of satellites, overlooking
low-resolution, multi-satellite, long-term archives, such as Landsat, that are
essential for affordable and bias-robust global monitoring. We address this gap
with Landsat30-AU, a large-scale vision-language dataset built from 30-meter
resolution imagery collected by four Landsat satellites (5, 7, 8, and 9) over
Australia, spanning more than 36 years. The dataset includes two components:
Landsat30-AU-Cap, containing $196,262$ image-caption pairs, and
Landsat30-AU-VQA, comprising 17,725 human-verified visual question answering
(VQA) samples across eight remote sensing domains. Both datasets are curated
through a bootstrapped pipeline that leverages generic VLMs with iterative
refinement and human verification to ensure quality. Our evaluation of eight
VLMs on our benchmark reveals that off-the-shelf models struggle to understand
satellite imagery. The open-source remote-sensing VLM EarthDial achieves only
0.07 SPIDEr in captioning and a VQA accuracy of 0.48, highlighting the
limitations of current approaches. Encouragingly, lightweight fine-tuning of
Qwen2.5-VL-7B on Landsat30-AU improves captioning performance from 0.11 to 0.31
SPIDEr and boosts VQA accuracy from 0.74 to 0.87. Code and data are available
at https://github.com/papersubmit1/landsat30-au.
Ссылки и действия
Дополнительные ресурсы: