Mars Traversability Prediction: A Multi-modal Self-supervised Approach for Costmap Generation
2509.11082v1
cs.CV, cs.RO
2025-09-17
Авторы:
Zongwu Xie, Kaijie Yun, Yang Liu, Yiming Ji, Han Li
Резюме на русском
## Контекст
Планетарные миссии требуют системы навигации, которая может эффективно оценивать траверсабильность поверхности. Однако, получение надёжных данных для обучения моделей в таких условиях ограничено, что приводит к риску ошибок в оценке траверсабильности. Эта проблема может привести к ухудшению надежности ровера и увеличению рисков для миссий. Наша мотивация заключается в разработке продвинутого метода, который бы способствовал точной и надежной оценке траверсабильности в сложных планетарных условиях.
## Метод
Мы предлагаем многомодальный самообучающийся подход для построения траверсабильности. Наша модель объединяет данные камеры и LiDAR, порождая bird's-eye-view (BEV) terrain costmap. Обучение происходит с использованием метки траверсабильности, сгенерированной с помощью данных IMU. Мы используем DINOv3 в качестве интенсивного изображения и FiLM для фузирования данных. Оптимизация производится с помощью комбинации Huber и smoothness loss. Эта архитектура позволяет модели предсказать траверсабильность с высокой точностью и устойчивостью к шумам в данных.
## Результаты
Мы проводили обширные эксперименты с различными условиями данных и модификациями набора данных. Наши результаты показали, что модель очень сильно зависит от геометрических признаков, а не семантических. Мы обнаружили, что даже при существенных изменениях в данных (например, удаление цвета или добавление шума), изменения MAE и MSE остаются незначительными. Это указывает на высокую устойчивость модели к шуму и сильное влияние геометрических данных.
## Значимость
Наш подход может быть применён в планетарных миссиях для более точного определения траверсабильности. Он обеспечивает высокую устойчивость, что позволяет роверам эффективно перемещаться по труднопроходимым местностям. Это также открывает возможности для улучшения систем навигации и уменьшения рисков для миссий.
## Выводы
Мы представили продвинутый подход к предсказанию траверсабильности, используя многомодальный самообучающийся метод. Основные достижения включают: (1) разработку высокоточной симуляционной среды; (2) создание самообучающейся модели, основанной на IMU; (3) разработку модели BEV. Будущие исследования будут сфокусированы на улучшении генерализации модели и расширении набора данных для различных условий.
Abstract
We present a robust multi-modal framework for predicting traversability
costmaps for planetary rovers. Our model fuses camera and LiDAR data to produce
a bird's-eye-view (BEV) terrain costmap, trained self-supervised using
IMU-derived labels. Key updates include a DINOv3-based image encoder,
FiLM-based sensor fusion, and an optimization loss combining Huber and
smoothness terms. Experimental ablations (removing image color, occluding
inputs, adding noise) show only minor changes in MAE/MSE (e.g. MAE increases
from ~0.0775 to 0.0915 when LiDAR is sparsified), indicating that geometry
dominates the learned cost and the model is highly robust. We attribute the
small performance differences to the IMU labeling primarily reflecting terrain
geometry rather than semantics and to limited data diversity. Unlike prior work
claiming large gains, we emphasize our contributions: (1) a high-fidelity,
reproducible simulation environment; (2) a self-supervised IMU-based labeling
pipeline; and (3) a strong multi-modal BEV costmap prediction model. We discuss
limitations and future work such as domain generalization and dataset
expansion.
Ссылки и действия
Дополнительные ресурсы: