Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation
2509.13229v1
cs.CV, cs.AI, cs.LG
2025-09-18
Авторы:
Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu
Резюме на русском
#### Контекст
Обработка спутниковых изображений в спектральном диапазоне требует высокой эффективности, поскольку спутники обычно ограничены в скорости передачи данных и мощности вычислений. Для этих задач требуются модели, которые могут обрабатывать большие объемы данных с минимальными затратами ресурсов. Однако существующие модели не всегда приспособлены для этих условий, так как требуют особых усилий для оптимизации. Большинство существующих подходов к обучению самостоятельно (self-supervised learning) строятся на двух отдельных задачах: пространственной и спектральной разметке. Это приводит к нерентабельному использованию ресурсов и затруднению обучения на лёгких архитектурах. Поэтому, необходима стратегия, которая может объединить эти две задачи в единой модели, чтобы улучшить производительность и эффективность обучения.
#### Метод
Мы предлагаем **Curriculum Multi-Task Self-Supervision (CMTSSL)** — рамфторму, которая интегрирует маскирование изображений с раздельным решением пространственных и спектральных головоломок (jigsaw puzzles). Эта стратегия использует самостоятельное обучение с последовательным увеличением сложности задач (curriculum learning). Мы используем два маскирования: одно для декомпозиции изображения по пространству, другое — по спектру. Затем, эти маски используются для сборки головоломок, которые нужно решить для обучения модели. Это позволяет объединить два типа признаков — пространственные и спектральные — в одной модели. В результате модель становится более устойчивой и эффективной для сегментации изображений.
#### Результаты
Мы проверили CMTSSL на четырёх общедоступных датасетах для сегментации спутниковых изображений. Мы сравнили нашу модель с двухзадачными самостоятельно обучающимися моделями и стандартными моделями на основе машинного обучения. Наши результаты показали, что CMTSSL даёт значительные выигрыши в производительности, особенно при использовании лёгких архитектур. Мы показали, что модель CMTSSL лучше справляется с задачей сегментации, даже если она использует архитектуры, которые 16,000 раз легче, чем те, что используются в современных моделях. Эти результаты показывают, что наш подход может эффективно обрабатывать данные спутников с минимальными затратами ресурсов.
#### Значимость
Помимо сегментации, наш подход может быть применён в других задачах, таких как классификация объектов на изображениях, изменение детекции и мониторинг окружающей среды. Он позволяет сократить объём передаваемых данных, что значительно снижает нагрузку на спутниковые системы. Это значительно улучшает эффективность использования ресурсов в системах с огра
Abstract
Hyperspectral imaging (HSI) captures detailed spectral signatures across
hundreds of contiguous bands per pixel, being indispensable for remote sensing
applications such as land-cover classification, change detection, and
environmental monitoring. Due to the high dimensionality of HSI data and the
slow rate of data transfer in satellite-based systems, compact and efficient
models are required to support onboard processing and minimize the transmission
of redundant or low-value data, e.g. cloud-covered areas. To this end, we
introduce a novel curriculum multi-task self-supervised learning (CMTSSL)
framework designed for lightweight architectures for HSI analysis. CMTSSL
integrates masked image modeling with decoupled spatial and spectral jigsaw
puzzle solving, guided by a curriculum learning strategy that progressively
increases data complexity during self-supervision. This enables the encoder to
jointly capture fine-grained spectral continuity, spatial structure, and global
semantic features. Unlike prior dual-task SSL methods, CMTSSL simultaneously
addresses spatial and spectral reasoning within a unified and computationally
efficient design, being particularly suitable for training lightweight models
for onboard satellite deployment. We validate our approach on four public
benchmark datasets, demonstrating consistent gains in downstream segmentation
tasks, using architectures that are over 16,000x lighter than some
state-of-the-art models. These results highlight the potential of CMTSSL in
generalizable representation learning with lightweight architectures for
real-world HSI applications. Our code is publicly available at
https://github.com/hugocarlesso/CMTSSL.
Ссылки и действия
Дополнительные ресурсы: