Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting
2509.20499v1
cs.RO, cs.AI
2025-09-26
Авторы:
Boqi Li, Siyuan Li, Weiyi Wang, Anran Li, Zhong Cao, Henry X. Liu
Резюме на русском
## Контекст
Визуально-языковое навигирование (Vision-Language Navigation, VLN) является ключевым заданием для искусственных агентов, взаимодействующих с окружающим миром. Это задача требует совмещения нескольких задач: интерпретации естественного языка, визуального восприятия и планирования низкоуровневых действий. Особенностью VLN в непрерывных пространствах является сложность восприятия среды и планирования наиболее эффективных маршрутов. Традиционные подходы часто страдают от проблем, таких как неэффективные планирования или лишние действия. Из-за этого, существуют необходимость разработки методов, позволяющих повысить точность и эффективность таких систем.
## Метод
Мы предлагаем zero-shot фреймворк, который интегрирует простой, но эффективный waypoint predictor с multimodal large language model (MLLM). Основное отличие этого подхода заключается в использовании абстрактной карты препятствий, которая разбивается на достижимые точки (waypoints). Эти точки используются для построения топологической структуры, которая включает в себя историю посещений точек. Эти данные кодируются в обученное модели предложение (prompt), что позволяет модели учитывать как пространственную структуру, так и историю перемещения. Эти элементы были специально разработаны для повышения точности планирования и уменьшения ошибок во время движения.
## Результаты
Мы проверили наш фреймворк на двух датасетах: R2R-CE и RxR-CE. На R2R-CE наша модель достигла успешности в 41%, что значительно превышает результаты других zero-shot подходов. На RxR-CE успешность составила 36%. Эти результаты показывают, что наше решение превосходит конкурирующие методы, демонстрируя высокую эффективность и точность в нулевом запуске.
## Значимость
Предложенный подход может быть применен в различных областях, включая автоматизированные системы навигации, робототехнику и программы взаимодействия с окружающим миром. Он позволяет улучшить точность планирования маршрутов, уменьшить количество ошибок и ускорить процесс работы агента. Это может привести к повышению качества работы систем в реальном мире и увеличению их точности в трудных пространственных задачах.
## Выводы
Наше исследование показало, что zero-shot VLN может быть эффективно решено с помощью топологической структуры и истории посещений. Мы показали, что наш подход превосходит существующие методы, демонстрируя высокую точность и эффективность. Будущие исследования будут сконцентрированы на улучшении динамического обновления топологических структур и улучшении быстродействия модели в реальных условиях.
Abstract
With the rapid progress of foundation models and robotics, vision-language
navigation (VLN) has emerged as a key task for embodied agents with broad
practical applications. We address VLN in continuous environments, a
particularly challenging setting where an agent must jointly interpret natural
language instructions, perceive its surroundings, and plan low-level actions.
We propose a zero-shot framework that integrates a simplified yet effective
waypoint predictor with a multimodal large language model (MLLM). The predictor
operates on an abstract obstacle map, producing linearly reachable waypoints,
which are incorporated into a dynamically updated topological graph with
explicit visitation records. The graph and visitation information are encoded
into the prompt, enabling reasoning over both spatial structure and exploration
history to encourage exploration and equip MLLM with local path planning for
error correction. Extensive experiments on R2R-CE and RxR-CE show that our
method achieves state-of-the-art zero-shot performance, with success rates of
41% and 36%, respectively, outperforming prior state-of-the-art methods.
Ссылки и действия
Дополнительные ресурсы: