ObjectReact: Learning Object-Relative Control for Visual Navigation

2509.09594v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY 2025-09-13
Авторы:

Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

Резюме на русском

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привлекательным альтернативным подходом к методам, требующим дополнительных сенсоров и 3D-сетки. Отличительным чертами такого подхода является "изображение-относительный" подход, который позволяет оценивать управление на основе пары текущего изображения и субцели. Однако изображение-относительные подходы ограничены, так как изображения сильно привязаны к позе и антропоморфности агента. В то же время, объекты, являясь частью карты, предлагают трансформацию-инвариантную и позиционирование-инвариантную носительную структуру. В данной работе мы предлагаем новую парадигму обучения на основе "объектного-относительного" управления, которая имеет несколько выгодных свойств: a) позволяет совершать новые маршруты без необходимости копировать предыдущие опыты, b) разделяет проблему прогнозирования управления от решения проблемы соотнесения изображений, и c) обеспечивает высокую качественную инвариантность при переносе политики с моделирования на реальность, включая смену обзора и настройку траектории. #### Метод Мы предлагаем новую структуру топологической карты в виде "относительного" 3D-графа сцены, который используется для получения более информативных глобальных затрат планирования пути. Мы также разрабатываем локальный контроллер, "ObjectReact", который принимает в качестве входных данных высокоуровневую "WayObject Costmap", исключая необходимость в явном вводе цветного изображения. Обучение "ObjectReact" основано на методах глубокого обучения, которые позволяют принимать решения на основе объектного отношения, а не изображения. Этот подход позволяет лучше распознавать и управлять объектами, независимо от камеры или позы агента. #### Результаты Мы проводим эксперименты, сравнивая нашу модель с изображение-относительными подходами в различных ситуациях: изменения высоты камеры, маршрутами в обратном порядке, и т.д. Наши результаты показывают, что "ObjectReact" не только показывает высокую точность в локальном управлении, но и обеспечивает лучшую общительность во время переноса политик с симуляции на реальный мир. Мы также демонстрируем, что наша система может обеспечить трансфер в разные ситуации, включая смену обзора и смену траектории. #### Значимость Наша работа открывает новые возможности для эффективного обучения управления в визуальной навигации. Она позволяет переключаться между моделированием и реальным миром более устойчиво, с меньшим риском переобучения. Кроме того, наш подход предоставляет преимущества в сфере обеспечения простоты и универсаль

Abstract

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map, offer an embodiment- and trajectory-invariant world representation. In this work, we present a new paradigm of learning "object-relative" control that exhibits several desirable characteristics: a) new routes can be traversed without strictly requiring to imitate prior experience, b) the control prediction problem can be decoupled from solving the image matching problem, and c) high invariance can be achieved in cross-embodiment deployment for variations across both training-testing and mapping-execution settings. We propose a topometric map representation in the form of a "relative" 3D scene graph, which is used to obtain more informative object-level global path planning costs. We train a local controller, dubbed "ObjectReact", conditioned directly on a high-level "WayObject Costmap" representation that eliminates the need for an explicit RGB input. We demonstrate the advantages of learning object-relative control over its image-relative counterpart across sensor height variations and multiple navigation tasks that challenge the underlying spatial understanding capability, e.g., navigating a map trajectory in the reverse direction. We further show that our sim-only policy is able to generalize well to real-world indoor environments. Code and supplementary material are accessible via project page: https://object-react.github.io/

Ссылки и действия

Связанные статьи

VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Plan...

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного примене...

2025-09-25

TANGO: Traversability-Aware Navigation with Local Metric Control for Topological...

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обуче...

2025-09-11

Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic ...

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяю...

2025-09-10

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulat...

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных ...

2025-08-27