Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting

2509.20499v1 cs.RO, cs.AI 2025-09-26
Авторы:

Boqi Li, Siyuan Li, Weiyi Wang, Anran Li, Zhong Cao, Henry X. Liu

Резюме на русском

## Контекст Визуально-языковое навигирование (Vision-Language Navigation, VLN) является ключевым заданием для искусственных агентов, взаимодействующих с окружающим миром. Это задача требует совмещения нескольких задач: интерпретации естественного языка, визуального восприятия и планирования низкоуровневых действий. Особенностью VLN в непрерывных пространствах является сложность восприятия среды и планирования наиболее эффективных маршрутов. Традиционные подходы часто страдают от проблем, таких как неэффективные планирования или лишние действия. Из-за этого, существуют необходимость разработки методов, позволяющих повысить точность и эффективность таких систем. ## Метод Мы предлагаем zero-shot фреймворк, который интегрирует простой, но эффективный waypoint predictor с multimodal large language model (MLLM). Основное отличие этого подхода заключается в использовании абстрактной карты препятствий, которая разбивается на достижимые точки (waypoints). Эти точки используются для построения топологической структуры, которая включает в себя историю посещений точек. Эти данные кодируются в обученное модели предложение (prompt), что позволяет модели учитывать как пространственную структуру, так и историю перемещения. Эти элементы были специально разработаны для повышения точности планирования и уменьшения ошибок во время движения. ## Результаты Мы проверили наш фреймворк на двух датасетах: R2R-CE и RxR-CE. На R2R-CE наша модель достигла успешности в 41%, что значительно превышает результаты других zero-shot подходов. На RxR-CE успешность составила 36%. Эти результаты показывают, что наше решение превосходит конкурирующие методы, демонстрируя высокую эффективность и точность в нулевом запуске. ## Значимость Предложенный подход может быть применен в различных областях, включая автоматизированные системы навигации, робототехнику и программы взаимодействия с окружающим миром. Он позволяет улучшить точность планирования маршрутов, уменьшить количество ошибок и ускорить процесс работы агента. Это может привести к повышению качества работы систем в реальном мире и увеличению их точности в трудных пространственных задачах. ## Выводы Наше исследование показало, что zero-shot VLN может быть эффективно решено с помощью топологической структуры и истории посещений. Мы показали, что наш подход превосходит существующие методы, демонстрируя высокую точность и эффективность. Будущие исследования будут сконцентрированы на улучшении динамического обновления топологических структур и улучшении быстродействия модели в реальных условиях.

Abstract

With the rapid progress of foundation models and robotics, vision-language navigation (VLN) has emerged as a key task for embodied agents with broad practical applications. We address VLN in continuous environments, a particularly challenging setting where an agent must jointly interpret natural language instructions, perceive its surroundings, and plan low-level actions. We propose a zero-shot framework that integrates a simplified yet effective waypoint predictor with a multimodal large language model (MLLM). The predictor operates on an abstract obstacle map, producing linearly reachable waypoints, which are incorporated into a dynamically updated topological graph with explicit visitation records. The graph and visitation information are encoded into the prompt, enabling reasoning over both spatial structure and exploration history to encourage exploration and equip MLLM with local path planning for error correction. Extensive experiments on R2R-CE and RxR-CE show that our method achieves state-of-the-art zero-shot performance, with success rates of 41% and 36%, respectively, outperforming prior state-of-the-art methods.

Ссылки и действия