Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation

2509.10919v1 cs.CV, cs.LG 2025-09-17

Авторы:

Mohanad Albughdadi

Резюме на русском

#### Контекст Earth Observation (EO) становится все более важной для мониторинга и анализа земного шара. Однако современные large-scale foundation models, несмотря на свою мощь, являются ресурсоемкими и сложно развертываются вне централизованных инфраструктур. Это ограничивает доступность и переиспользование этих моделей для разнообразных прикладных задач. Наша мотивация заключается в развитии эффективных архитектур, которые могут обеспечить баланс между производительностью и удобством использования. #### Метод Мы предлагаем Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder (MoE-MAE). Данная модель имеет только 2,5 миллионов параметров, чтобы обеспечить низкую вычислительную сложность. Основной инновацией является интеграция geo-temporal conditioning, которая включает в себя информацию о географических координатах и сезонности. Модель также использует sparse expert routing, который эффективно эксплуатирует ресурсы. MoE-MAE был обучен на BigEarthNet-Landsat dataset, чтобы эффективно интегрировать метаданные. #### Результаты Мы проводили эксперименты с помощью linear probes на BigEarthNet-Landsat и EuroSAT-Landsat datasets. Несмотря на компактность, MoE-MAE показал выдающуюся производительность, сравнимую с более крупными моделями, использующими сотни миллионов параметров. Мы также оценили generalization на данных EuroSAT-Landsat, отсутствующих метаданных, и установили, что модель по-прежнему сохраняет высокую эффективность. Эти результаты свидетельствуют о том, что метаданные-aware pretraining улучшает transfer и label efficiency. #### Значимость Мы обнаружили, что MoE-MAE эффективно применяется в различных задачах EO, включая классификацию изображений, обнаружение объектов и распознавание ландшафтов. Наша модель предлагает существенное сокращение требований к ресурсам, что делает ее более доступной для разработчиков и специалистов. Этот подход может стать основой для моделей будущего, которые будут обладать высокой гибкостью и эффективностью. #### Выводы Мы доказали, что модель MoE-MAE является компактной, эффективной и гибкой альтернативой более крупным моделям EO. Наша работа открывает путь к будущим исследованиям в области компактных foundation models для Earth Observation. Мы планируем продолжить работу над улучшением geo-temporal conditioning и исследовать альтернативные техники для обработки метаданных.

Abstract

Recent advances in Earth Observation have focused on large-scale foundation models. However, these models are computationally expensive, limiting their accessibility and reuse for downstream tasks. In this work, we investigate compact architectures as a practical pathway toward smaller general-purpose EO models. We propose a Metadata-aware Mixture-of-Experts Masked Autoencoder (MoE-MAE) with only 2.5M parameters. The model combines sparse expert routing with geo-temporal conditioning, incorporating imagery alongside latitude/longitude and seasonal/daily cyclic encodings. We pretrain the MoE-MAE on the BigEarthNet-Landsat dataset and evaluate embeddings from its frozen encoder using linear probes. Despite its small size, the model competes with much larger architectures, demonstrating that metadata-aware pretraining improves transfer and label efficiency. To further assess generalization, we evaluate on the EuroSAT-Landsat dataset, which lacks explicit metadata, and still observe competitive performance compared to models with hundreds of millions of parameters. These results suggest that compact, metadata-aware MoE-MAEs are an efficient and scalable step toward future EO foundation models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация