Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

2509.13229v1 cs.CV, cs.AI, cs.LG 2025-09-18
Авторы:

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu

Резюме на русском

#### Контекст Обработка спутниковых изображений в спектральном диапазоне требует высокой эффективности, поскольку спутники обычно ограничены в скорости передачи данных и мощности вычислений. Для этих задач требуются модели, которые могут обрабатывать большие объемы данных с минимальными затратами ресурсов. Однако существующие модели не всегда приспособлены для этих условий, так как требуют особых усилий для оптимизации. Большинство существующих подходов к обучению самостоятельно (self-supervised learning) строятся на двух отдельных задачах: пространственной и спектральной разметке. Это приводит к нерентабельному использованию ресурсов и затруднению обучения на лёгких архитектурах. Поэтому, необходима стратегия, которая может объединить эти две задачи в единой модели, чтобы улучшить производительность и эффективность обучения. #### Метод Мы предлагаем **Curriculum Multi-Task Self-Supervision (CMTSSL)** — рамфторму, которая интегрирует маскирование изображений с раздельным решением пространственных и спектральных головоломок (jigsaw puzzles). Эта стратегия использует самостоятельное обучение с последовательным увеличением сложности задач (curriculum learning). Мы используем два маскирования: одно для декомпозиции изображения по пространству, другое — по спектру. Затем, эти маски используются для сборки головоломок, которые нужно решить для обучения модели. Это позволяет объединить два типа признаков — пространственные и спектральные — в одной модели. В результате модель становится более устойчивой и эффективной для сегментации изображений. #### Результаты Мы проверили CMTSSL на четырёх общедоступных датасетах для сегментации спутниковых изображений. Мы сравнили нашу модель с двухзадачными самостоятельно обучающимися моделями и стандартными моделями на основе машинного обучения. Наши результаты показали, что CMTSSL даёт значительные выигрыши в производительности, особенно при использовании лёгких архитектур. Мы показали, что модель CMTSSL лучше справляется с задачей сегментации, даже если она использует архитектуры, которые 16,000 раз легче, чем те, что используются в современных моделях. Эти результаты показывают, что наш подход может эффективно обрабатывать данные спутников с минимальными затратами ресурсов. #### Значимость Помимо сегментации, наш подход может быть применён в других задачах, таких как классификация объектов на изображениях, изменение детекции и мониторинг окружающей среды. Он позволяет сократить объём передаваемых данных, что значительно снижает нагрузку на спутниковые системы. Это значительно улучшает эффективность использования ресурсов в системах с огра

Abstract

Hyperspectral imaging (HSI) captures detailed spectral signatures across hundreds of contiguous bands per pixel, being indispensable for remote sensing applications such as land-cover classification, change detection, and environmental monitoring. Due to the high dimensionality of HSI data and the slow rate of data transfer in satellite-based systems, compact and efficient models are required to support onboard processing and minimize the transmission of redundant or low-value data, e.g. cloud-covered areas. To this end, we introduce a novel curriculum multi-task self-supervised learning (CMTSSL) framework designed for lightweight architectures for HSI analysis. CMTSSL integrates masked image modeling with decoupled spatial and spectral jigsaw puzzle solving, guided by a curriculum learning strategy that progressively increases data complexity during self-supervision. This enables the encoder to jointly capture fine-grained spectral continuity, spatial structure, and global semantic features. Unlike prior dual-task SSL methods, CMTSSL simultaneously addresses spatial and spectral reasoning within a unified and computationally efficient design, being particularly suitable for training lightweight models for onboard satellite deployment. We validate our approach on four public benchmark datasets, demonstrating consistent gains in downstream segmentation tasks, using architectures that are over 16,000x lighter than some state-of-the-art models. These results highlight the potential of CMTSSL in generalizable representation learning with lightweight architectures for real-world HSI applications. Our code is publicly available at https://github.com/hugocarlesso/CMTSSL.

Ссылки и действия