VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation
2509.18592v1
cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY
2025-09-25
Авторы:
Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu
Резюме на русском
## Контекст
Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного применения интеллектуальных систем в реальном мире. Однако существующие подходы страдают от низкой скорости адаптации к новым условиям, неэффективной планировке и частых ошибках в выборе маршрутов. Эти проблемы ограничивают производительность и надежность роботов в пространстве сложных визуальных и символических задач. В статье представлен подход VLN-Zero, который стремится развить новый стандарт для эффективного и быстрого планирования в незнакомых средах.
## Метод
VLN-Zero представляет собой двухфазную стратегию: фаза эксплорации и фаза деплоймента. В первой фазе используется визуально-языковая модель (Visual Language Model, VLM) для эффективного построения сценарных графов, основанных на контекстно-семантических моделях. На второй фазе внедряется гибкое тестирование новых маршрутов с помощью моделей рассуждения, которые учитывают обеспечение реального времени с помощью кэша доступных путей. Это позволяет уменьшить время работы моделей и сделать планирование более устойчивым к ошибкам. Такой подход значительно увеличивает скорость и точность взаимодействия с окружением.
## Результаты
В экспериментах использовалась комбинация различных сценариев, в том числе незнакомых вариантов сред, где были протестированы различные модели навигации. Результаты показали, что VLN-Zero достигает 2 раза выше успешности в сравнении с состоянием технологии в нулевых подходах к роботовой навигации. Он также показал значительное сокращение времени в перемещениях и уменьшил количество вызовов моделей визуального распознавания. В реальных условиях навигации VLN-Zero показал выигрыш в скорости и точности в 30-50% по сравнению с предыдущими моделями.
## Значимость
Подход VLN-Zero направлен на решение проблемы эффективной адаптации в незнакомых средах, что важно для широкого спектра приложений, включая домохозяйства, промышленные работы и транспортные системы. Он предлагает новую модель, которая сочетает в себе символическое планирование, эффективное использование моделей VLM и устойчивость к ошибкам. Это открывает путь к более надежной и удобной автоматизации в сложных средах.
## Выводы
VLN-Zero демонстрирует потенциал для существенного улучшения навигационных систем в незнакомых средах. Он быстрее, эффективнее и надежнее существующих подходов. Будущие исследования будут сфокусированы на улучшении символического планирования, увеличении скорости реакции и увеличении модели надёжности в много
Abstract
Rapid adaptation in unseen environments is essential for scalable real-world
autonomy, yet existing approaches rely on exhaustive exploration or rigid
navigation policies that fail to generalize. We present VLN-Zero, a two-phase
vision-language navigation framework that leverages vision-language models to
efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic
navigation. In the exploration phase, structured prompts guide VLM-based search
toward informative and diverse trajectories, yielding compact scene graph
representations. In the deployment phase, a neurosymbolic planner reasons over
the scene graph and environmental observations to generate executable plans,
while a cache-enabled execution module accelerates adaptation by reusing
previously computed task-location trajectories. By combining rapid exploration,
symbolic reasoning, and cache-enabled execution, the proposed framework
overcomes the computational inefficiency and poor generalization of prior
vision-language navigation methods, enabling robust and scalable
decision-making in unseen environments. VLN-Zero achieves 2x higher success
rate compared to state-of-the-art zero-shot models, outperforms most fine-tuned
baselines, and reaches goal locations in half the time with 55% fewer VLM calls
on average compared to state-of-the-art models across diverse environments.
Codebase, datasets, and videos for VLN-Zero are available at:
https://vln-zero.github.io/.