VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

2509.18592v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY 2025-09-25
Авторы:

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

Резюме на русском

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного применения интеллектуальных систем в реальном мире. Однако существующие подходы страдают от низкой скорости адаптации к новым условиям, неэффективной планировке и частых ошибках в выборе маршрутов. Эти проблемы ограничивают производительность и надежность роботов в пространстве сложных визуальных и символических задач. В статье представлен подход VLN-Zero, который стремится развить новый стандарт для эффективного и быстрого планирования в незнакомых средах. ## Метод VLN-Zero представляет собой двухфазную стратегию: фаза эксплорации и фаза деплоймента. В первой фазе используется визуально-языковая модель (Visual Language Model, VLM) для эффективного построения сценарных графов, основанных на контекстно-семантических моделях. На второй фазе внедряется гибкое тестирование новых маршрутов с помощью моделей рассуждения, которые учитывают обеспечение реального времени с помощью кэша доступных путей. Это позволяет уменьшить время работы моделей и сделать планирование более устойчивым к ошибкам. Такой подход значительно увеличивает скорость и точность взаимодействия с окружением. ## Результаты В экспериментах использовалась комбинация различных сценариев, в том числе незнакомых вариантов сред, где были протестированы различные модели навигации. Результаты показали, что VLN-Zero достигает 2 раза выше успешности в сравнении с состоянием технологии в нулевых подходах к роботовой навигации. Он также показал значительное сокращение времени в перемещениях и уменьшил количество вызовов моделей визуального распознавания. В реальных условиях навигации VLN-Zero показал выигрыш в скорости и точности в 30-50% по сравнению с предыдущими моделями. ## Значимость Подход VLN-Zero направлен на решение проблемы эффективной адаптации в незнакомых средах, что важно для широкого спектра приложений, включая домохозяйства, промышленные работы и транспортные системы. Он предлагает новую модель, которая сочетает в себе символическое планирование, эффективное использование моделей VLM и устойчивость к ошибкам. Это открывает путь к более надежной и удобной автоматизации в сложных средах. ## Выводы VLN-Zero демонстрирует потенциал для существенного улучшения навигационных систем в незнакомых средах. Он быстрее, эффективнее и надежнее существующих подходов. Будущие исследования будут сфокусированы на улучшении символического планирования, увеличении скорости реакции и увеличении модели надёжности в много

Abstract

Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse trajectories, yielding compact scene graph representations. In the deployment phase, a neurosymbolic planner reasons over the scene graph and environmental observations to generate executable plans, while a cache-enabled execution module accelerates adaptation by reusing previously computed task-location trajectories. By combining rapid exploration, symbolic reasoning, and cache-enabled execution, the proposed framework overcomes the computational inefficiency and poor generalization of prior vision-language navigation methods, enabling robust and scalable decision-making in unseen environments. VLN-Zero achieves 2x higher success rate compared to state-of-the-art zero-shot models, outperforms most fine-tuned baselines, and reaches goal locations in half the time with 55% fewer VLM calls on average compared to state-of-the-art models across diverse environments. Codebase, datasets, and videos for VLN-Zero are available at: https://vln-zero.github.io/.

Ссылки и действия

Связанные статьи

ObjectReact: Learning Object-Relative Control for Visual Navigation

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привл...

2025-09-13

TANGO: Traversability-Aware Navigation with Local Metric Control for Topological...

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обуче...

2025-09-11

Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic ...

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяю...

2025-09-10

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulat...

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных ...

2025-08-27