ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation

2509.12618v1 cs.RO, cs.AI, cs.CV 2025-09-18

Авторы:

Zekai Zhang, Weiye Zhu, Hewei Pan, Xiangchen Wang, Rongtao Xu, Xing Sun, Feng Zheng

Резюме на русском

#### Контекст Vision-and-Language Navigation (VLN) — это задача, в которой агент должен следовать естественным языковым инструкциям и перемещаться по сложным средам. Эта задача требует сильной интеграции визуальной и языковой информации, а также динамической навигации в условиях неопределенности. Традиционно, методы на основе моделей значительного языкового обучения (MLLM) полагаются на имитационное обучение (IL) и, часто, на пост-тренировочные методы типа DAgger для компенсации проблемы ковариатного отклонения. Хотя эффективны, эти подходы требуют больших затрат на сбор данных и обучения. Альтернативным подходом является использование реинforcement learning (RL), но существующие VLN RL-методы часто ограничены динамическим взаимодействием с серым зоной и приходят к ускорению значительного балла с помощью руководств экспертов. Наша мотивация заключается в разработке метода, который бы стимулировал динамическое и активное исследование среды, увеличивая производительность и гибкость в VLN. #### Метод Мы предлагаем ActiveVLN — рамку для VLN, которая использует многоразовый RL для активного исследования. В первой стадии, маленькая доля экспертных траекторий используется для имитационного обучения, чтобы инициализировать агента. Во второй стадии, агент динамически предсказывает и выполняет действия, автоматически собирает разнообразные траектории, и оптимизирует несколько rollouts с помощью объективного оптимизатора GRPO. Для повышения эффективности RL, мы внедрили динамическую стратегию раннего остановка, чтобы урезать длинные траектории, которые могут привести к неудачам. Эти дополнительные оптимизации позволяют уменьшить время обучения и улучшить качество результатов. #### Результаты Мы провели эксперименты на стандартных данных VLN, таких как R2R и Room-to-Room. Наша система ActiveVLN показала существенное улучшение по сравнению с IL-базированными методами, в том числе с DAgger-based подходами. Мы также достигли состязательной производительности с современными RL-методами, несмотря на то, что использовали меньшую модель. Эксперименты показали, что ActiveVLN эффективно использует активное исследование, чтобы открыть различные и достоверные маршруты, которые могут быть пропущены статическими подходами. #### Значимость Наш подход может быть применен в различных сценариях, где требуется динамическое взаимодействие с средой и быстрое обучение. За счет активного исследования, ActiveVLN может быть применен в задачах, включая интерактивное навигационное пространство, автоматизированные системы помощи и даже в сфере робототехники. Также, наша система пре

Abstract

The Vision-and-Language Navigation (VLN) task requires an agent to follow natural language instructions and navigate through complex environments. Existing MLLM-based VLN methods primarily rely on imitation learning (IL) and often use DAgger for post-training to mitigate covariate shift. While effective, these approaches incur substantial data collection and training costs. Reinforcement learning (RL) offers a promising alternative. However, prior VLN RL methods lack dynamic interaction with the environment and depend on expert trajectories for reward shaping, rather than engaging in open-ended active exploration. This restricts the agent's ability to discover diverse and plausible navigation routes. To address these limitations, we propose ActiveVLN, a VLN framework that explicitly enables active exploration through multi-turn RL. In the first stage, a small fraction of expert trajectories is used for IL to bootstrap the agent. In the second stage, the agent iteratively predicts and executes actions, automatically collects diverse trajectories, and optimizes multiple rollouts via the GRPO objective. To further improve RL efficiency, we introduce a dynamic early-stopping strategy to prune long-tail or likely failed trajectories, along with additional engineering optimizations. Experiments show that ActiveVLN achieves the largest performance gains over IL baselines compared to both DAgger-based and prior RL-based post-training methods, while reaching competitive performance with state-of-the-art approaches despite using a smaller model. Code and data will be released soon.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Distracted Robot: How Visual Clutter Undermine Robotic Manipulation

Obstruction reasoning for robotic grasping

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as A...

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied ...

Stable Multi-Drone GNSS Tracking System for Marine Robots

Навигация