Sim2Dust: Mastering Dynamic Waypoint Tracking on Granular Media

2508.11503v1 cs.RO, cs.AI, cs.LG 2025-08-19
Авторы:

Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez

Резюме на русском

Резюме научной статьи ======================= ## Контекст Навигация роботов по неизвестным планетарным террайнам является ключевым элементом для последующих космических миссий. Однако, научные исследования столкнулись с значительными проблемами при переходе от симуляционной среды к реальной (sim-to-real gap), особенно при работе с комплексными динамическими процессами, взаимодействиями колес с гравийными поверхностями. Для решения этой задачи, важно создать систему полного симуляционного и реального тестирования, которая могла бы стать основой для разработки надежного управления, например, для динамического целевого слежения на гравийной поверхности. ## Метод Предлагаемая методология включает три основных элемента: (1) массово параллельные симуляции для обучения агентов с помощью reinforcement learning; (2) процедурное сгенерирование разнообразных сред, основываясь на параметрах физического движения колес; (3) тестирование и выбор лучших агентов на физическом ровере в условиях лавовой аналогии Луны. Основным принципом является использование процедурного разнообразия в симуляции, чтобы обеспечить роботу устойчивость в неизвестных условиях. Для различения агентов были экспериментированы различные алгоритмы reinforcement learning и методы упрощения действий. ## Результаты Использование массово параллельных симуляций позволило развить устойчивые политики управления, которые были успешно переданы на физический ровер. На основе экспериментов, было установлено, что роботы, обученные в условиях процедурного разнообразия, показали лучшую производительность при нулевом переходе на реальный ровер, чем те, которые были обучены статическими разнообразиями. Также было изучено влияние методов fine-tuning с использованием высокоточных моделей физики на точность управления, особенно при низких скоростях. ## Значимость Разработанная система позволяет создавать надежные управления для динамического слежения за целью на различных гравийных поверхностях. Это открывает новые возможности для космических миссий, таких как роботизированная исследовательская исследовательских работ на Марсе и Луне. Также, этот подход может быть применен в области робототехники для развития надежных алгоритмов управления в условиях неизвестной среды. ## Выводы Результаты демонстрируют, что обучение в условиях процедурного разнообразия является ключевым фактором для создания устойчивых политик управления для гравийных поверхностей. Работа также показала, что fine-tuning на высокоточных моделях физики имеет ограниченное влияние на точность управления. Будущие исследования будут направлены на улу

Abstract

Reliable autonomous navigation across the unstructured terrains of distant planetary surfaces is a critical enabler for future space exploration. However, the deployment of learning-based controllers is hindered by the inherent sim-to-real gap, particularly for the complex dynamics of wheel interactions with granular media. This work presents a complete sim-to-real framework for developing and validating robust control policies for dynamic waypoint tracking on such challenging surfaces. We leverage massively parallel simulation to train reinforcement learning agents across a vast distribution of procedurally generated environments with randomized physics. These policies are then transferred zero-shot to a physical wheeled rover operating in a lunar-analogue facility. Our experiments systematically compare multiple reinforcement learning algorithms and action smoothing filters to identify the most effective combinations for real-world deployment. Crucially, we provide strong empirical evidence that agents trained with procedural diversity achieve superior zero-shot performance compared to those trained on static scenarios. We also analyze the trade-offs of fine-tuning with high-fidelity particle physics, which offers minor gains in low-speed precision at a significant computational cost. Together, these contributions establish a validated workflow for creating reliable learning-based navigation systems, marking a critical step towards deploying autonomous robots in the final frontier.

Ссылки и действия