Synthetic vs. Real Training Data for Visual Navigation
2509.11791v1
cs.RO, cs.LG
2025-09-17
Авторы:
Lauri Suomela, Sasanka Kuruppu Arachchige, German F. Torres, Harry Edelman, Joni-Kristian Kämäräinen
Резюме на русском
## Контекст
Одна из основных задач в области робототехники является развитие эффективных политик для визуального навигационного поведения. Однако существует затруднение в использовании настоящих данных, так как они часто ограничены в объёме и наличии разнообразия. Это приводит к затруднениям при обучении моделей, которые должны работать в реальных условиях. Одна из важных проблем в этой области — так называемый "симулятор-к-реальности" (sim-to-real) гэп, когда модели, обученные в симуляторе, оказываются неэффективными при использовании в реальных условиях. Таким образом, целью данной работы является изучение моделей, обученных в симуляторе, и их сравнение с моделями, обученными на реальных данных, для оценки их эффективности в реальных условиях.
## Метод
В данной работе использована модель визуального навигационного поведения, которая использует симулятор для обучения, но может работать на реальном роботе в реальном времени. Основным акцентом является набор представлений, полученных с помощью предобученных моделей на большом количестве изображений. Эти представления позволяют модели свести разницу между симулятором и реальным миром. Модель тестировалась на вилочном мобильном роботе и была проверена на совместимость с другими устройствами, такими как дроны.
## Результаты
Помимо тестирования в реальном мире, модель была протестирована на определенных сценариях визуальной навигации. Она показала существенное улучшение в производительности в сравнении с реально-обученными моделями, а также с предыдущими методами. Например, модель, обученная в симуляторе, показала улучшение в успешности навигации на 31% в сравнении с реально-обученной моделью. Была также проверена общизна модели, которая была успешно развернута на борту дрона. Это показало, что модель, обученная в симуляторе, может показать хороший результат не только на вилочном роботе, но и на другом типе робота.
## Значимость
Исследование показывает, что симулятор — это эффективный инструмент для обучения моделей визуальной навигации, который может совпадать или даже превосходить производительность моделей, обученных на реальных данных. Благодаря этой модели, можно значительно сократить время и ресурсы, необходимые для обучения моделей в реальном мире. Это также открывает новые возможности для более широкого использования робототехнических систем в различных прикладных областях.
## Выводы
В результате данных исследований было установлено, что модели, обученные в симуляторе, могут не только совпадать с моделями, обученными на реальных данных, но и превосходить их в условиях реальной навигации. Было показано, что использо
Abstract
This paper investigates how the performance of visual navigation policies
trained in simulation compares to policies trained with real-world data.
Performance degradation of simulator-trained policies is often significant when
they are evaluated in the real world. However, despite this well-known
sim-to-real gap, we demonstrate that simulator-trained policies can match the
performance of their real-world-trained counterparts.
Central to our approach is a navigation policy architecture that bridges the
sim-to-real appearance gap by leveraging pretrained visual representations and
runs real-time on robot hardware. Evaluations on a wheeled mobile robot show
that the proposed policy, when trained in simulation, outperforms its
real-world-trained version by 31% and the prior state-of-the-art methods by 50%
in navigation success rate. Policy generalization is verified by deploying the
same model onboard a drone.
Our results highlight the importance of diverse image encoder pretraining for
sim-to-real generalization, and identify on-policy learning as a key advantage
of simulated training over training with real data.
Ссылки и действия
Дополнительные ресурсы: