Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces
2508.02917v1
cs.CV, cs.AI, cs.CL, cs.RO
2025-08-09
Авторы:
Vebjørn Haug Kåsene, Pierre Lison
Резюме на русском
**Резюме**
В данной работе исследуется возможность использования больших моделей языка и визуального восприятия (LVLMs) для решения задачи Vision-and-Language Navigation (VLN), требующей позволить автономным роботам следовать естественным языковым инструкциям в незнакомых пространствах. Хотя ранее для VLN разрабатывались специализированные модели, авторы исследуют возможность применения безразмерных LVLMs (например, Qwen2.5-VL-3B-Instruct), причем независимо от их оптимизации для VLN. Также изучается возможность использования таких моделей в различных парадигмах действий: низкоуровневых (с эгоцентричным просмотром) и панорамных (с выбором из панорамных точек). На датасете Room-to-Room (R2R) проведена сравнительная оценка эффективности этих моделей. Основные выводы: LVLMs могут выполнять VLN, но до сих пор не достигают уровня специализированных моделей, а наилучшая модель показывает 41% успеха на тестовом наборе.
Abstract
Vision-and-Language Navigation (VLN) refers to the task of enabling
autonomous robots to navigate unfamiliar environments by following natural
language instructions. While recent Large Vision-Language Models (LVLMs) have
shown promise in this task, most current VLM systems rely on models
specifically designed and optimized for navigation, leaving the potential of
off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used
low-level action spaces with egocentric views and atomic actions (such as "turn
left" or "move forward"), newer models tend to favor panoramic action spaces
with discrete navigable viewpoints. This paper investigates (1) whether
off-the-shelf LVLMs (fine-tuned without architectural modifications or
simulator-based training) can effectively support VLN tasks and (2) whether
such models can support both low-level and panoramic action paradigms. To this
end, we fine-tune the open-source model Qwen2.5-VL-3B-Instruct on the
Room-to-Room (R2R) dataset and evaluate its empirical performance across both
low-level and panoramic action spaces. The best resulting model achieves a 41%
success rate on the R2R test set, demonstrating that while off-the-shelf LVLMs
can learn to perform Vision-and-Language Navigation, they still lag behind
models specifically designed for this task.