SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning

2509.20739v1 cs.RO, cs.CV 2025-09-27
Авторы:

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma

Резюме на русском

## Контекст Основной объект исследования — развитие эффективных методов визуальной навигации для роботов без использования SLAM (Simultaneous Localization and Mapping). Традиционные системы SLAM для роботов с двумя ногами чувствительны к быстрому движению, трудностям калибровки и погрешностям сенсоров. Более того, они ограничены в поддержке целевого поиска и задач-ориентированного исследования. Данная работа предлагает создать новую парадигму, ориентированную на использование визуальных данных и языковых моделей, для более робастной и задачедеривленной навигации. ## Метод Предложенный подход включает в себя несколько ключевых компонентов. Во-первых, **hiеarchical vision-language perception module** объединяет контекст сцены и объектно-уровневые признаки, обеспечивая более надежное понимание среды. Во-вторых, **semantic-probabilistic topological map** поддерживает планирование в два этапа: **global reasoning** с помощью LLM для выбора подцелей и **local planning** для избегания препятствий на основе визуальных данных. Этот подход интегрируется с reinforcement-learning locomotion controllers, что обеспечивает более гибкую и надежную навигацию. ## Результаты Исследование включает эксперименты как в симуляционной, так и в реальной среде. Обучающиеся данные включали сцены с различными препятствиями и задачами. Результаты показали, что предложенная система повышает точность семантического распознавания, улучшает классификацию объектов и увеличивает успешность навигации в сравнении с конкурентными методами. Аблационные эксперименты подтверждают важность как hierarchical perception, так и local planning. ## Значимость Предлагаемый подход может быть применен в различных областях, включая домашнюю автоматизацию, поиск-спасательные операции и исследования в недвижимости. Он предоставляет преимущества в том числе более стабильной навигации, снижении затрат на калибровку и улучшением понимания среды. Данная работа может влиять на развитие робототехники, перенаправив ее от геометрического подхода к более семантически-ориентированному. ## Выводы Работа представляет собой новую парадигму в SLAM-free навигации, основанную на использовании визуальных и языковых моделей. Она устанавливает новый подход к навигации, где роль геометрического зрения заменена на целевой и семантически-ориентированный фреймворк. В будущем планируется расширить исследования на более сложные среды и исследовать возможности интеграции других типов сенсоров для повышения производительности.

Abstract

Conventional SLAM pipelines for legged robot navigation are fragile under rapid motion, calibration demands, and sensor drift, while offering limited semantic reasoning for task-driven exploration. To deal with these issues, we propose a vision-only, SLAM-free navigation framework that replaces dense geometry with semantic reasoning and lightweight topological representations. A hierarchical vision-language perception module fuses scene-level context with object-level cues for robust semantic inference. And a semantic-probabilistic topological map supports coarse-to-fine planning: LLM-based global reasoning for subgoal selection and vision-based local planning for obstacle avoidance. Integrated with reinforcement-learning locomotion controllers, the framework is deployable across diverse legged robot platforms. Experiments in simulation and real-world settings demonstrate consistent improvements in semantic accuracy, planning quality, and navigation success, while ablation studies further showcase the necessity of both hierarchical perception and fine local planning. This work introduces a new paradigm for SLAM-free, vision-language-driven navigation, shifting robotic exploration from geometry-centric mapping to semantics-driven decision making.

Ссылки и действия