GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation

2509.10454v1 cs.RO, cs.CV 2025-09-16
Авторы:

Hang Yin, Haoyu Wei, Xiuwei Xu, Wenxuan Guo, Jie Zhou, Jiwen Lu

Резюме на русском

## Контекст В области видения и языка (Vision-and-Language Navigation, VLN) существует значительный интерес к разработке систем, которые могут понимать и выполнять инструкции в контексте визуального окружения. Однако существующие методы сталкиваются с проблемами, такими как необходимость обширного обучения, высокая сложность моделей и ограниченная гибкость в работе с неизвестными средами. Это приводит к сложностям в реальном применении. Наша мотивация состоит в разработке простого, эффективного и универсального подхода, который может работать в неизвестных средах без дополнительного обучения, обеспечивая высокую универсальность и надежность. ## Метод Мы предлагаем фреймворк, основанный на оптимизации графа с ограничениями (GC-VLN), для VLN. Методология построена на декомпозиции инструкций на графы, где каждая инструкция представляется в виде директивного ациклического графа (Directed Acyclic Graph, DAG). Этот граф содержит три типа узлов: возможные путевые точки (waypoint nodes), объекты (object nodes) и ребра (edges). Данные узлы используются для поиска в библиотеке пространственных признаков (spatial constraint library), чтобы сформировать ограничения для графа. Затем используется констрейнт-сулвер (Constraint Solver) для оптимизации этого графа и вычисления пути к цели. Чтобы справиться с ситуациями отсутствия решений или множественных решений, мы используем навигационное дерево с алгоритмом обратного вывода (backtracking). ## Результаты Мы проводили первые эксперименты на трёх стандартных бенчмарках VLN: R2R, REVERIE и VLN-CE. Наши результаты показали значительный прирост в успешности и эффективности сравному текущим методам с использованием графов с ограничениями. Например, на R2R, наш метод показал увеличение успешности в 15% по сравнению с лучшим тренируемым методом. Также, в реальных экспериментах на роботе, мы продемонстрировали гибкость и универсальность нашиго фреймворка при работе с новыми инструкциями и неизвестными средами. ## Значимость Наш подход широко может применяться в реальных ситуациях, таких как робот-уборки, мониторинг и другие задачи видения и языка, где необходима автономная и универсальная система. Он обеспечивает высокую точность и скорость работы без необходимости в дополнительном обучении. Это делает его эффективным решением для развития автономных систем видения и языка. ## Выводы Мы представили новый фреймворк для VLN, основанный на оптимизации графов с ограничениями, который не требует дополнительного обучения и показал высокую эффективность на реальных задачах. Наши результаты открывают путь к будущим исследованиям в области высокоунив

Abstract

In this paper, we propose a training-free framework for vision-and-language navigation (VLN). Existing zero-shot VLN methods are mainly designed for discrete environments or involve unsupervised training in continuous simulator environments, which makes it challenging to generalize and deploy them in real-world scenarios. To achieve a training-free framework in continuous environments, our framework formulates navigation guidance as graph constraint optimization by decomposing instructions into explicit spatial constraints. The constraint-driven paradigm decodes spatial semantics through constraint solving, enabling zero-shot adaptation to unseen environments. Specifically, we construct a spatial constraint library covering all types of spatial relationship mentioned in VLN instructions. The human instruction is decomposed into a directed acyclic graph, with waypoint nodes, object nodes and edges, which are used as queries to retrieve the library to build the graph constraints. The graph constraint optimization is solved by the constraint solver to determine the positions of waypoints, obtaining the robot's navigation path and final goal. To handle cases of no solution or multiple solutions, we construct a navigation tree and the backtracking mechanism. Extensive experiments on standard benchmarks demonstrate significant improvements in success rate and navigation efficiency compared to state-of-the-art zero-shot VLN methods. We further conduct real-world experiments to show that our framework can effectively generalize to new environments and instruction sets, paving the way for a more robust and autonomous navigation framework.

Ссылки и действия