Human-like Navigation in a World Built for Humans
2509.21189v1
cs.RO, cs.AI, cs.CV
2025-09-27
Авторы:
Bhargav Chandaka, Gloria X. Wang, Haozhe Chen, Henry Che, Albert J. Zhai, Shenlong Wang
Резюме на русском
## Контекст
Манипулирование роботами в средах, разработанных для человека, часто требует эффективного навигационного поведения. Однако существующие системы навигации недостаточно эффективны в больших и сложных пространствах, так как не способны имитировать человеческие способности, такие как чтение знаков, следование инструкциям и задание вопросов. Эти ограничения приводят к высокой неэффективности в поиске маршрутов и снижению энергоэффективности. Мы предлагаем ReasonNav — расширенную систему навигации, которая включает в себя модульную архитектуру и использует визионно-языковую модель (VLM) для реализации более естественных и эффективных навигационных стратегий.
## Метод
ReasonNav базируется на визионно-языковой модели, которая обрабатывает входные данные, включающие зрительные сенсоры и текстовые команды. Мы оптимизировали входные данные для модели, превратив их в абстрактные значки, такие как ориентиры и сигналы. Это позволяет модели сосредоточиться на логическом понимании и принятии решений. Благодаря этому, модель может использовать визуальные и текстовые сигналы для выполнения различных навигационных задач в больших пространствах.
## Результаты
Мы проводили эксперименты в реальном мире и в симуляторе, используя данные, собранные из реальных помещений. Цель экспериментов заключалась в оценке способности ReasonNav справиться с задачами, такими как нахождение конкретных объектов, следование сложным маршрутам и эффективное взаимодействие с окружающим миром. Результаты показали, что ReasonNav менее зависит от поиска и экспериментирует с различными стратегиями, что делает его эффективным в сравнении с другими системами.
## Значимость
Мы видим практическое применение ReasonNav в сферах, таких как организация поиска в огромных пространствах, включая офисы, крупные здания и купеческие центры. Эта система может упростить многие процессы, такие как доставка товаров, снабжение и управление транспортом в закрытых пространствах. Кроме того, ReasonNav может стать основой для роботов, работающих в средах, ориентированных на человека, таких как медицинские клиники, школы и дома.
## Выводы
ReasonNav удалось продемонстрировать мощь высокоуровневой рассудочной модели для навигации в человеческих средах. Будущие исследования будут сфокусированы на улучшении модели рассудка, повышении скорости работы и расширении применения в сложных навигационных ситуациях. Мы также планируем расширить возможности модели для интеграции с другими системами, такими как управление транспортом и системы управления потоком людей в крупных пространствах.
Abstract
When navigating in a man-made environment they haven't visited before--like
an office building--humans employ behaviors such as reading signs and asking
others for directions. These behaviors help humans reach their destinations
efficiently by reducing the need to search through large areas. Existing robot
navigation systems lack the ability to execute such behaviors and are thus
highly inefficient at navigating within large environments. We present
ReasonNav, a modular navigation system which integrates these human-like
navigation skills by leveraging the reasoning capabilities of a vision-language
model (VLM). We design compact input and output abstractions based on
navigation landmarks, allowing the VLM to focus on language understanding and
reasoning. We evaluate ReasonNav on real and simulated navigation tasks and
show that the agent successfully employs higher-order reasoning to navigate
efficiently in large, complex buildings.
Ссылки и действия
Дополнительные ресурсы: