MCTED: A Machine-Learning-Ready Dataset for Digital Elevation Model Generation From Mars Imagery
2509.08027v1
cs.CV, cs.LG
2025-09-11
Авторы:
Rafał Osadnik, Pablo Gómez, Eleni Bohacek, Rickbir Bahia
Резюме на русском
## Контекст
Марс является целью многочисленных исследований, в том числе в области геодезии и геологии, которые стремятся понять структуру и формирование его поверхности. Одним из ключевых задач в этой области является построение цифровых моделей высот (DEM), которые представляют визуальную и физическую структуру ландшафта. Однако, удаленное просмотром Земли недостаточно для полного понимания Марса. Более того, процессы построения DEM часто связаны с проблемами, такими как недостаточная детализация, артефакты данных и пропуски в данных. Эти ограничения влияют на качество исследований. Мы предлагаем MCTED — новую машино-обучаемую выборку, готовую к применению в задачах построения DEM на Марсе. Она создана с помощью сложной конвейерной обработки, основанной на высококачественных данных от Mars Reconnaissance Orbiter (MRO). MCTED предлагает решение для обнаружения и устранения проблем, которые часто возникают при построении DEM.
## Метод
MCTED была построена с использованием высококачественного набора данных от MRO, содержащий изображения и DEM-модели. Мы разработали уникальный конвейер, который позволяет обрабатывать эти данные, устраняя артефакты и заполняя пропуски. Данные были разбиты на разделы для обучения и валидации, чтобы избежать зашумления данных и поддержать обучение точных моделей. Каждая выборка в MCTED состоит из изображения, DEM-модели и масок, указывающих на пропуски и изменения. Мы оптимизировали процесс обработки и подготовки данных, чтобы обеспечить их готовность для машинного обучения.
## Результаты
Мы проводили эксперименты с целью оценки качества MCTED. Наши эксперименты показали, что даже небольшая модель, обученная на этом наборе, выдает лучшие результаты по сравнению с более сложным базовым моделью DepthAnythingV2. Мы также проверили распределение высот, значения склонности и другие статистические характеристики, чтобы продемонстрировать широту областей применения данных. Результаты подтвердили, что MCTED является эффективным инструментом для обучения моделей DEM на Марсе с минимальными ограничениями.
## Значимость
Мы видим применение MCTED в различных областях, включая геологические исследования, моделирование климата и планирование миссий на Марсе. Этот набор данных предоставляет уникальные возможности для повышения точности и скорости построения DEM. Мы также отмечаем, что открытый доступ к данным и коду позволит сообществу работать над развитием новых моделей и методов.
## Выводы
MCTED является новым ресурсом для построения DEM на Марсе, который решает многие проблемы, связанные с обработкой данных. Мы нашли, что даже небольшие модели, обученные на этом наборе, превосходят более сложные модели, таки
Abstract
This work presents a new dataset for the Martian digital elevation model
prediction task, ready for machine learning applications called MCTED. The
dataset has been generated using a comprehensive pipeline designed to process
high-resolution Mars orthoimage and DEM pairs from Day et al., yielding a
dataset consisting of 80,898 data samples. The source images are data gathered
by the Mars Reconnaissance Orbiter using the CTX instrument, providing a very
diverse and comprehensive coverage of the Martian surface. Given the complexity
of the processing pipelines used in large-scale DEMs, there are often artefacts
and missing data points in the original data, for which we developed tools to
solve or mitigate their impact. We divide the processed samples into training
and validation splits, ensuring samples in both splits cover no mutual areas to
avoid data leakage. Every sample in the dataset is represented by the optical
image patch, DEM patch, and two mask patches, indicating values that were
originally missing or were altered by us. This allows future users of the
dataset to handle altered elevation regions as they please. We provide
statistical insights of the generated dataset, including the spatial
distribution of samples, the distributions of elevation values, slopes and
more. Finally, we train a small U-Net architecture on the MCTED dataset and
compare its performance to a monocular depth estimation foundation model,
DepthAnythingV2, on the task of elevation prediction. We find that even a very
small architecture trained on this dataset specifically, beats a zero-shot
performance of a depth estimation foundation model like DepthAnythingV2. We
make the dataset and code used for its generation completely open source in
public repositories.
Ссылки и действия
Дополнительные ресурсы: