#### Контекст
Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привлекательным альтернативным подходом к методам, требующим дополнительных сенсоров и 3D-сетки. Отличительным чертами такого подхода является "изображение-относительный" подход, который позволяет оценивать управление на основе пары текущего изображения и субцели. Однако изображение-относительные подходы ограничены, так как изображения сильно привязаны к позе и антропоморфности агента. В то же время, объекты, являясь частью карты, предлагают трансформацию-инвариантную и позиционирование-инвариантную носительную структуру. В данной работе мы предлагаем новую парадигму обучения на основе "объектного-относительного" управления, которая имеет несколько выгодных свойств: a) позволяет совершать новые маршруты без необходимости копировать предыдущие опыты, b) разделяет проблему прогнозирования управления от решения проблемы соотнесения изображений, и c) обеспечивает высокую качественную инвариантность при переносе политики с моделирования на реальность, включая смену обзора и настройку траектории.
#### Метод
Мы предлагаем новую структуру топологической карты в виде "относительного" 3D-графа сцены, который используется для получения более информативных глобальных затрат планирования пути. Мы также разрабатываем локальный контроллер, "ObjectReact", который принимает в качестве входных данных высокоуровневую "WayObject Costmap", исключая необходимость в явном вводе цветного изображения. Обучение "ObjectReact" основано на методах глубокого обучения, которые позволяют принимать решения на основе объектного отношения, а не изображения. Этот подход позволяет лучше распознавать и управлять объектами, независимо от камеры или позы агента.
#### Результаты
Мы проводим эксперименты, сравнивая нашу модель с изображение-относительными подходами в различных ситуациях: изменения высоты камеры, маршрутами в обратном порядке, и т.д. Наши результаты показывают, что "ObjectReact" не только показывает высокую точность в локальном управлении, но и обеспечивает лучшую общительность во время переноса политик с симуляции на реальный мир. Мы также демонстрируем, что наша система может обеспечить трансфер в разные ситуации, включая смену обзора и смену траектории.
#### Значимость
Наша работа открывает новые возможности для эффективного обучения управления в визуальной навигации. Она позволяет переключаться между моделированием и реальным миром более устойчиво, с меньшим риском переобучения. Кроме того, наш подход предоставляет преимущества в сфере обеспечения простоты и универсаль