Synthetic vs. Real Training Data for Visual Navigation

2509.11791v1 cs.RO, cs.LG 2025-09-17

Авторы:

Lauri Suomela, Sasanka Kuruppu Arachchige, German F. Torres, Harry Edelman, Joni-Kristian Kämäräinen

Резюме на русском

## Контекст Одна из основных задач в области робототехники является развитие эффективных политик для визуального навигационного поведения. Однако существует затруднение в использовании настоящих данных, так как они часто ограничены в объёме и наличии разнообразия. Это приводит к затруднениям при обучении моделей, которые должны работать в реальных условиях. Одна из важных проблем в этой области — так называемый "симулятор-к-реальности" (sim-to-real) гэп, когда модели, обученные в симуляторе, оказываются неэффективными при использовании в реальных условиях. Таким образом, целью данной работы является изучение моделей, обученных в симуляторе, и их сравнение с моделями, обученными на реальных данных, для оценки их эффективности в реальных условиях. ## Метод В данной работе использована модель визуального навигационного поведения, которая использует симулятор для обучения, но может работать на реальном роботе в реальном времени. Основным акцентом является набор представлений, полученных с помощью предобученных моделей на большом количестве изображений. Эти представления позволяют модели свести разницу между симулятором и реальным миром. Модель тестировалась на вилочном мобильном роботе и была проверена на совместимость с другими устройствами, такими как дроны. ## Результаты Помимо тестирования в реальном мире, модель была протестирована на определенных сценариях визуальной навигации. Она показала существенное улучшение в производительности в сравнении с реально-обученными моделями, а также с предыдущими методами. Например, модель, обученная в симуляторе, показала улучшение в успешности навигации на 31% в сравнении с реально-обученной моделью. Была также проверена общизна модели, которая была успешно развернута на борту дрона. Это показало, что модель, обученная в симуляторе, может показать хороший результат не только на вилочном роботе, но и на другом типе робота. ## Значимость Исследование показывает, что симулятор — это эффективный инструмент для обучения моделей визуальной навигации, который может совпадать или даже превосходить производительность моделей, обученных на реальных данных. Благодаря этой модели, можно значительно сократить время и ресурсы, необходимые для обучения моделей в реальном мире. Это также открывает новые возможности для более широкого использования робототехнических систем в различных прикладных областях. ## Выводы В результате данных исследований было установлено, что модели, обученные в симуляторе, могут не только совпадать с моделями, обученными на реальных данных, но и превосходить их в условиях реальной навигации. Было показано, что использо

Abstract

This paper investigates how the performance of visual navigation policies trained in simulation compares to policies trained with real-world data. Performance degradation of simulator-trained policies is often significant when they are evaluated in the real world. However, despite this well-known sim-to-real gap, we demonstrate that simulator-trained policies can match the performance of their real-world-trained counterparts. Central to our approach is a navigation policy architecture that bridges the sim-to-real appearance gap by leveraging pretrained visual representations and runs real-time on robot hardware. Evaluations on a wheeled mobile robot show that the proposed policy, when trained in simulation, outperforms its real-world-trained version by 31% and the prior state-of-the-art methods by 50% in navigation success rate. Policy generalization is verified by deploying the same model onboard a drone. Our results highlight the importance of diverse image encoder pretraining for sim-to-real generalization, and identify on-policy learning as a key advantage of simulated training over training with real data.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Synthetic vs. Real Training Data for Visual Navigation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-embodied Co-design for Dexterous Hands

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guide...

Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep...

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment...

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Навигация