DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation
2509.11197v1
cs.RO, cs.AI, cs.CL, cs.CV
2025-09-17
Авторы:
Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu
Резюме на русском
## Контекст
Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для обеспечения взаимодействия облегчённых роботов с реальным миром. Она связывает языковые инструкции с восприятием и действиями в реальной среде. Несмотря на то, что последние годы данная область получила значительный прогресс, существуют трудности, связанные с ограниченным доступом к данным, высокой стоимостью восприятия и неэффективностью планирования. В попытках улучшить эти аспекты, данная работа предлагает инновационный подход, который нацелен на повышение точности и эффективности в VLN-CE.
## Метод
DreamNav — это архитектура, основанная на прогностическом планировании, которая включает в себя три основных компонента: (1) **EgoView Corrector** для корректировки нарушений в зрении и улучшения его стабильности, (2) **Trajectory Predictor**, который реализует глобальное планирование на более высоком уровне, чтобы улучшить соответствие активности инструкциям, и (3) **Imagination Predictor**, который добавляет в систему прогностическую способность, позволяющую роботу предполагать дальнейшие действия на более длительные периоды времени. Эти компоненты объединены в единую систему, чтобы обеспечить более эффективное и точное взаимодействие робота с реальным миром.
## Результаты
На основе экспериментов на VLN-CE и реальных тестах DreamNav показал выдающиеся результаты. Он завоевал новый zero-shot state-of-the-art (SOTA), повысив результаты по метрикам Success Rate (SR) и Success weighted by Path Length (SPL) на 7.49% и 18.15% соответственно, в сравнении с самым близким конкурентом, использующим дополнительную информацию. Эти результаты отвечают высоким стандартам эффективности и реалистичности в VLN-CE.
## Значимость
Данный подход может быть применён в различных областях, включая робототехнику, виртуальную реальность и интеллектуальные системы управления. Он обеспечивает более точное планирование, экономичность в реализации и улучшенную стабильность. Таким образом, он открывает новые возможности для применения в реальном мире, улучшая качество и эффективность взаимодействия роботов с окружающим миром.
## Выводы
Разработанная система DreamNav представляет собой новую модель zero-shot VLN, которая стабильно улучшает результаты в многих аспектах. В дальнейшем, авторы планируют расширить возможности данного подхода, ориентируясь на более сложные сценарии и более высокую степень интеграции с окружающим миром.
Abstract
Vision-and-Language Navigation in Continuous Environments (VLN-CE), which
links language instructions to perception and control in the real world, is a
core capability of embodied robots. Recently, large-scale pretrained foundation
models have been leveraged as shared priors for perception, reasoning, and
action, enabling zero-shot VLN without task-specific training. However,
existing zero-shot VLN methods depend on costly perception and passive scene
understanding, collapsing control to point-level choices. As a result, they are
expensive to deploy, misaligned in action semantics, and short-sighted in
planning. To address these issues, we present DreamNav that focuses on the
following three aspects: (1) for reducing sensory cost, our EgoView Corrector
aligns viewpoints and stabilizes egocentric perception; (2) instead of
point-level actions, our Trajectory Predictor favors global trajectory-level
planning to better align with instruction semantics; and (3) to enable
anticipatory and long-horizon planning, we propose an Imagination Predictor to
endow the agent with proactive thinking capability. On VLN-CE and real-world
tests, DreamNav sets a new zero-shot state-of-the-art (SOTA), outperforming the
strongest egocentric baseline with extra information by up to 7.49\% and
18.15\% in terms of SR and SPL metrics. To our knowledge, this is the first
zero-shot VLN method to unify trajectory-level planning and active imagination
while using only egocentric inputs.