Scalable Geospatial Data Generation Using AlphaEarth Foundations Model
2508.11739v1
cs.LG, cs.CV, I.4.6; I.5.5
2025-08-19
Авторы:
Luc Houriez, Sebastian Pilarski, Behzad Vahedi, Ali Ahmadalipour, Teo Honda Scully, Nicholas Aflitto, David Andre, Caroline Jaffe, Martha Wedner, Rich Mazzola, Josh Jeffery, Ben Messinger, Sage McGinley-Smith, Sarah Russell
Резюме на русском
## Контекст
Геоспациальные данные являются ключевым инструментом для понимания и изучения планеты. Однако доступные данные часто ограничиваются определенными регионами, не покрывая всю территорию земного шара. Это ограничение снижает ценность данных для широкомасштабных анализов и приложений.
Google DeepMind внедрила модель AlphaEarth Foundations (AEF), представляющую собой информационно-богатую глобальную геоспациальную структуру. Она предназначена для повышения качества и полноты данных в различных задачах. В данной работе рассматривается возможность использования модели AEF для расширения геоспациальных данных за пределы исходного региона.
## Метод
Методология основывается на использовании AlphaEarth Foundations для расширения геоспациальных данных. Алгоритм построения модели состоит в том, что данные из исходного региона (например, USA) используются для обучения модели, которая затем применяется к новому региону (например, Канада).
Используется оптимизация случайных леса и логистической регрессии для построения модели. Эти модели адаптируются для расширения данных, в том числе для высокоуровневого классификационного анализа.
## Результаты
Для проверки метода проводился эксперимент над данными LANDFIRE Existing Vegetation Type (EVT), расширенными с USA в Канаду. Модель обучалась на данных EvtPhys (13 классов) и EvtGp (80 классов).
В результате показано, что модели демонстрируют высокую точность классификации в USA (81%) и Канаде (73%). Хотя модели не полностью корректно классифицируют все классы, они показывают хорошую зернальность в точных классах.
## Значимость
Этот подход имеет значимые применения в областях развития среды, геологии и других сфер, требующих глобальных геоспациальных данных. Он позволяет расширять область данных, которые ранее были ограничены региональными данными.
Преимущества включают увеличение доступных данных, улучшение точности классификации и обеспечение адекватных ресурсов для широты задач, от управления природой до машинного обучения.
## Выводы
Результаты экспериментов показали, что модели могут добавить значительное количество данных в геоспациальные наборы данных. Эта работа открывает возможности для расширения геоспациальных данных в новые регионы, охватывая новые географические зоны.
Кроме того, данный подход может быть расширен на другие регионы и даже на различные классификационные модели, чтобы улучшить точность и разрешать предметные области, требующие глобальных данных.
Abstract
High-quality labeled geospatial datasets are essential for extracting
insights and understanding our planet. Unfortunately, these datasets often do
not span the entire globe and are limited to certain geographic regions where
data was collected. Google DeepMind's recently released AlphaEarth Foundations
(AEF) provides an information-dense global geospatial representation designed
to serve as a useful input across a wide gamut of tasks. In this article we
propose and evaluate a methodology which leverages AEF to extend geospatial
labeled datasets beyond their initial geographic regions. We show that even
basic models like random forests or logistic regression can be used to
accomplish this task. We investigate a case study of extending LANDFIRE's
Existing Vegetation Type (EVT) dataset beyond the USA into Canada at two levels
of granularity: EvtPhys (13 classes) and EvtGp (80 classes). Qualitatively, for
EvtPhys, model predictions align with ground truth. Trained models achieve 81%
and 73% classification accuracy on EvtPhys validation sets in the USA and
Canada, despite discussed limitations.