Mars Traversability Prediction: A Multi-modal Self-supervised Approach for Costmap Generation

2509.11082v1 cs.CV, cs.RO 2025-09-17
Авторы:

Zongwu Xie, Kaijie Yun, Yang Liu, Yiming Ji, Han Li

Резюме на русском

## Контекст Планетарные миссии требуют системы навигации, которая может эффективно оценивать траверсабильность поверхности. Однако, получение надёжных данных для обучения моделей в таких условиях ограничено, что приводит к риску ошибок в оценке траверсабильности. Эта проблема может привести к ухудшению надежности ровера и увеличению рисков для миссий. Наша мотивация заключается в разработке продвинутого метода, который бы способствовал точной и надежной оценке траверсабильности в сложных планетарных условиях. ## Метод Мы предлагаем многомодальный самообучающийся подход для построения траверсабильности. Наша модель объединяет данные камеры и LiDAR, порождая bird's-eye-view (BEV) terrain costmap. Обучение происходит с использованием метки траверсабильности, сгенерированной с помощью данных IMU. Мы используем DINOv3 в качестве интенсивного изображения и FiLM для фузирования данных. Оптимизация производится с помощью комбинации Huber и smoothness loss. Эта архитектура позволяет модели предсказать траверсабильность с высокой точностью и устойчивостью к шумам в данных. ## Результаты Мы проводили обширные эксперименты с различными условиями данных и модификациями набора данных. Наши результаты показали, что модель очень сильно зависит от геометрических признаков, а не семантических. Мы обнаружили, что даже при существенных изменениях в данных (например, удаление цвета или добавление шума), изменения MAE и MSE остаются незначительными. Это указывает на высокую устойчивость модели к шуму и сильное влияние геометрических данных. ## Значимость Наш подход может быть применён в планетарных миссиях для более точного определения траверсабильности. Он обеспечивает высокую устойчивость, что позволяет роверам эффективно перемещаться по труднопроходимым местностям. Это также открывает возможности для улучшения систем навигации и уменьшения рисков для миссий. ## Выводы Мы представили продвинутый подход к предсказанию траверсабильности, используя многомодальный самообучающийся метод. Основные достижения включают: (1) разработку высокоточной симуляционной среды; (2) создание самообучающейся модели, основанной на IMU; (3) разработку модели BEV. Будущие исследования будут сфокусированы на улучшении генерализации модели и расширении набора данных для различных условий.

Abstract

We present a robust multi-modal framework for predicting traversability costmaps for planetary rovers. Our model fuses camera and LiDAR data to produce a bird's-eye-view (BEV) terrain costmap, trained self-supervised using IMU-derived labels. Key updates include a DINOv3-based image encoder, FiLM-based sensor fusion, and an optimization loss combining Huber and smoothness terms. Experimental ablations (removing image color, occluding inputs, adding noise) show only minor changes in MAE/MSE (e.g. MAE increases from ~0.0775 to 0.0915 when LiDAR is sparsified), indicating that geometry dominates the learned cost and the model is highly robust. We attribute the small performance differences to the IMU labeling primarily reflecting terrain geometry rather than semantics and to limited data diversity. Unlike prior work claiming large gains, we emphasize our contributions: (1) a high-fidelity, reproducible simulation environment; (2) a self-supervised IMU-based labeling pipeline; and (3) a strong multi-modal BEV costmap prediction model. We discuss limitations and future work such as domain generalization and dataset expansion.

Ссылки и действия