MCTED: A Machine-Learning-Ready Dataset for Digital Elevation Model Generation From Mars Imagery

2509.08027v1 cs.CV, cs.LG 2025-09-11
Авторы:

Rafał Osadnik, Pablo Gómez, Eleni Bohacek, Rickbir Bahia

Резюме на русском

## Контекст Марс является целью многочисленных исследований, в том числе в области геодезии и геологии, которые стремятся понять структуру и формирование его поверхности. Одним из ключевых задач в этой области является построение цифровых моделей высот (DEM), которые представляют визуальную и физическую структуру ландшафта. Однако, удаленное просмотром Земли недостаточно для полного понимания Марса. Более того, процессы построения DEM часто связаны с проблемами, такими как недостаточная детализация, артефакты данных и пропуски в данных. Эти ограничения влияют на качество исследований. Мы предлагаем MCTED — новую машино-обучаемую выборку, готовую к применению в задачах построения DEM на Марсе. Она создана с помощью сложной конвейерной обработки, основанной на высококачественных данных от Mars Reconnaissance Orbiter (MRO). MCTED предлагает решение для обнаружения и устранения проблем, которые часто возникают при построении DEM. ## Метод MCTED была построена с использованием высококачественного набора данных от MRO, содержащий изображения и DEM-модели. Мы разработали уникальный конвейер, который позволяет обрабатывать эти данные, устраняя артефакты и заполняя пропуски. Данные были разбиты на разделы для обучения и валидации, чтобы избежать зашумления данных и поддержать обучение точных моделей. Каждая выборка в MCTED состоит из изображения, DEM-модели и масок, указывающих на пропуски и изменения. Мы оптимизировали процесс обработки и подготовки данных, чтобы обеспечить их готовность для машинного обучения. ## Результаты Мы проводили эксперименты с целью оценки качества MCTED. Наши эксперименты показали, что даже небольшая модель, обученная на этом наборе, выдает лучшие результаты по сравнению с более сложным базовым моделью DepthAnythingV2. Мы также проверили распределение высот, значения склонности и другие статистические характеристики, чтобы продемонстрировать широту областей применения данных. Результаты подтвердили, что MCTED является эффективным инструментом для обучения моделей DEM на Марсе с минимальными ограничениями. ## Значимость Мы видим применение MCTED в различных областях, включая геологические исследования, моделирование климата и планирование миссий на Марсе. Этот набор данных предоставляет уникальные возможности для повышения точности и скорости построения DEM. Мы также отмечаем, что открытый доступ к данным и коду позволит сообществу работать над развитием новых моделей и методов. ## Выводы MCTED является новым ресурсом для построения DEM на Марсе, который решает многие проблемы, связанные с обработкой данных. Мы нашли, что даже небольшие модели, обученные на этом наборе, превосходят более сложные модели, таки

Abstract

This work presents a new dataset for the Martian digital elevation model prediction task, ready for machine learning applications called MCTED. The dataset has been generated using a comprehensive pipeline designed to process high-resolution Mars orthoimage and DEM pairs from Day et al., yielding a dataset consisting of 80,898 data samples. The source images are data gathered by the Mars Reconnaissance Orbiter using the CTX instrument, providing a very diverse and comprehensive coverage of the Martian surface. Given the complexity of the processing pipelines used in large-scale DEMs, there are often artefacts and missing data points in the original data, for which we developed tools to solve or mitigate their impact. We divide the processed samples into training and validation splits, ensuring samples in both splits cover no mutual areas to avoid data leakage. Every sample in the dataset is represented by the optical image patch, DEM patch, and two mask patches, indicating values that were originally missing or were altered by us. This allows future users of the dataset to handle altered elevation regions as they please. We provide statistical insights of the generated dataset, including the spatial distribution of samples, the distributions of elevation values, slopes and more. Finally, we train a small U-Net architecture on the MCTED dataset and compare its performance to a monocular depth estimation foundation model, DepthAnythingV2, on the task of elevation prediction. We find that even a very small architecture trained on this dataset specifically, beats a zero-shot performance of a depth estimation foundation model like DepthAnythingV2. We make the dataset and code used for its generation completely open source in public repositories.

Ссылки и действия