Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation
2509.10919v1
cs.CV, cs.LG
2025-09-17
Авторы:
Mohanad Albughdadi
Резюме на русском
#### Контекст
Earth Observation (EO) становится все более важной для мониторинга и анализа земного шара. Однако современные large-scale foundation models, несмотря на свою мощь, являются ресурсоемкими и сложно развертываются вне централизованных инфраструктур. Это ограничивает доступность и переиспользование этих моделей для разнообразных прикладных задач. Наша мотивация заключается в развитии эффективных архитектур, которые могут обеспечить баланс между производительностью и удобством использования.
#### Метод
Мы предлагаем Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder (MoE-MAE). Данная модель имеет только 2,5 миллионов параметров, чтобы обеспечить низкую вычислительную сложность. Основной инновацией является интеграция geo-temporal conditioning, которая включает в себя информацию о географических координатах и сезонности. Модель также использует sparse expert routing, который эффективно эксплуатирует ресурсы. MoE-MAE был обучен на BigEarthNet-Landsat dataset, чтобы эффективно интегрировать метаданные.
#### Результаты
Мы проводили эксперименты с помощью linear probes на BigEarthNet-Landsat и EuroSAT-Landsat datasets. Несмотря на компактность, MoE-MAE показал выдающуюся производительность, сравнимую с более крупными моделями, использующими сотни миллионов параметров. Мы также оценили generalization на данных EuroSAT-Landsat, отсутствующих метаданных, и установили, что модель по-прежнему сохраняет высокую эффективность. Эти результаты свидетельствуют о том, что метаданные-aware pretraining улучшает transfer и label efficiency.
#### Значимость
Мы обнаружили, что MoE-MAE эффективно применяется в различных задачах EO, включая классификацию изображений, обнаружение объектов и распознавание ландшафтов. Наша модель предлагает существенное сокращение требований к ресурсам, что делает ее более доступной для разработчиков и специалистов. Этот подход может стать основой для моделей будущего, которые будут обладать высокой гибкостью и эффективностью.
#### Выводы
Мы доказали, что модель MoE-MAE является компактной, эффективной и гибкой альтернативой более крупным моделям EO. Наша работа открывает путь к будущим исследованиям в области компактных foundation models для Earth Observation. Мы планируем продолжить работу над улучшением geo-temporal conditioning и исследовать альтернативные техники для обработки метаданных.
Abstract
Recent advances in Earth Observation have focused on large-scale foundation
models. However, these models are computationally expensive, limiting their
accessibility and reuse for downstream tasks. In this work, we investigate
compact architectures as a practical pathway toward smaller general-purpose EO
models. We propose a Metadata-aware Mixture-of-Experts Masked Autoencoder
(MoE-MAE) with only 2.5M parameters. The model combines sparse expert routing
with geo-temporal conditioning, incorporating imagery alongside
latitude/longitude and seasonal/daily cyclic encodings. We pretrain the MoE-MAE
on the BigEarthNet-Landsat dataset and evaluate embeddings from its frozen
encoder using linear probes. Despite its small size, the model competes with
much larger architectures, demonstrating that metadata-aware pretraining
improves transfer and label efficiency. To further assess generalization, we
evaluate on the EuroSAT-Landsat dataset, which lacks explicit metadata, and
still observe competitive performance compared to models with hundreds of
millions of parameters. These results suggest that compact, metadata-aware
MoE-MAEs are an efficient and scalable step toward future EO foundation models.
Ссылки и действия
Дополнительные ресурсы: