SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning
2509.20739v1
cs.RO, cs.CV
2025-09-27
Авторы:
Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma
Резюме на русском
## Контекст
Основной объект исследования — развитие эффективных методов визуальной навигации для роботов без использования SLAM (Simultaneous Localization and Mapping). Традиционные системы SLAM для роботов с двумя ногами чувствительны к быстрому движению, трудностям калибровки и погрешностям сенсоров. Более того, они ограничены в поддержке целевого поиска и задач-ориентированного исследования. Данная работа предлагает создать новую парадигму, ориентированную на использование визуальных данных и языковых моделей, для более робастной и задачедеривленной навигации.
## Метод
Предложенный подход включает в себя несколько ключевых компонентов. Во-первых, **hiеarchical vision-language perception module** объединяет контекст сцены и объектно-уровневые признаки, обеспечивая более надежное понимание среды. Во-вторых, **semantic-probabilistic topological map** поддерживает планирование в два этапа: **global reasoning** с помощью LLM для выбора подцелей и **local planning** для избегания препятствий на основе визуальных данных. Этот подход интегрируется с reinforcement-learning locomotion controllers, что обеспечивает более гибкую и надежную навигацию.
## Результаты
Исследование включает эксперименты как в симуляционной, так и в реальной среде. Обучающиеся данные включали сцены с различными препятствиями и задачами. Результаты показали, что предложенная система повышает точность семантического распознавания, улучшает классификацию объектов и увеличивает успешность навигации в сравнении с конкурентными методами. Аблационные эксперименты подтверждают важность как hierarchical perception, так и local planning.
## Значимость
Предлагаемый подход может быть применен в различных областях, включая домашнюю автоматизацию, поиск-спасательные операции и исследования в недвижимости. Он предоставляет преимущества в том числе более стабильной навигации, снижении затрат на калибровку и улучшением понимания среды. Данная работа может влиять на развитие робототехники, перенаправив ее от геометрического подхода к более семантически-ориентированному.
## Выводы
Работа представляет собой новую парадигму в SLAM-free навигации, основанную на использовании визуальных и языковых моделей. Она устанавливает новый подход к навигации, где роль геометрического зрения заменена на целевой и семантически-ориентированный фреймворк. В будущем планируется расширить исследования на более сложные среды и исследовать возможности интеграции других типов сенсоров для повышения производительности.
Abstract
Conventional SLAM pipelines for legged robot navigation are fragile under
rapid motion, calibration demands, and sensor drift, while offering limited
semantic reasoning for task-driven exploration. To deal with these issues, we
propose a vision-only, SLAM-free navigation framework that replaces dense
geometry with semantic reasoning and lightweight topological representations. A
hierarchical vision-language perception module fuses scene-level context with
object-level cues for robust semantic inference. And a semantic-probabilistic
topological map supports coarse-to-fine planning: LLM-based global reasoning
for subgoal selection and vision-based local planning for obstacle avoidance.
Integrated with reinforcement-learning locomotion controllers, the framework is
deployable across diverse legged robot platforms. Experiments in simulation and
real-world settings demonstrate consistent improvements in semantic accuracy,
planning quality, and navigation success, while ablation studies further
showcase the necessity of both hierarchical perception and fine local planning.
This work introduces a new paradigm for SLAM-free, vision-language-driven
navigation, shifting robotic exploration from geometry-centric mapping to
semantics-driven decision making.
Ссылки и действия
Дополнительные ресурсы: