ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation
2509.12618v1
cs.RO, cs.AI, cs.CV
2025-09-18
Авторы:
Zekai Zhang, Weiye Zhu, Hewei Pan, Xiangchen Wang, Rongtao Xu, Xing Sun, Feng Zheng
Резюме на русском
#### Контекст
Vision-and-Language Navigation (VLN) — это задача, в которой агент должен следовать естественным языковым инструкциям и перемещаться по сложным средам. Эта задача требует сильной интеграции визуальной и языковой информации, а также динамической навигации в условиях неопределенности. Традиционно, методы на основе моделей значительного языкового обучения (MLLM) полагаются на имитационное обучение (IL) и, часто, на пост-тренировочные методы типа DAgger для компенсации проблемы ковариатного отклонения. Хотя эффективны, эти подходы требуют больших затрат на сбор данных и обучения. Альтернативным подходом является использование реинforcement learning (RL), но существующие VLN RL-методы часто ограничены динамическим взаимодействием с серым зоной и приходят к ускорению значительного балла с помощью руководств экспертов. Наша мотивация заключается в разработке метода, который бы стимулировал динамическое и активное исследование среды, увеличивая производительность и гибкость в VLN.
#### Метод
Мы предлагаем ActiveVLN — рамку для VLN, которая использует многоразовый RL для активного исследования. В первой стадии, маленькая доля экспертных траекторий используется для имитационного обучения, чтобы инициализировать агента. Во второй стадии, агент динамически предсказывает и выполняет действия, автоматически собирает разнообразные траектории, и оптимизирует несколько rollouts с помощью объективного оптимизатора GRPO. Для повышения эффективности RL, мы внедрили динамическую стратегию раннего остановка, чтобы урезать длинные траектории, которые могут привести к неудачам. Эти дополнительные оптимизации позволяют уменьшить время обучения и улучшить качество результатов.
#### Результаты
Мы провели эксперименты на стандартных данных VLN, таких как R2R и Room-to-Room. Наша система ActiveVLN показала существенное улучшение по сравнению с IL-базированными методами, в том числе с DAgger-based подходами. Мы также достигли состязательной производительности с современными RL-методами, несмотря на то, что использовали меньшую модель. Эксперименты показали, что ActiveVLN эффективно использует активное исследование, чтобы открыть различные и достоверные маршруты, которые могут быть пропущены статическими подходами.
#### Значимость
Наш подход может быть применен в различных сценариях, где требуется динамическое взаимодействие с средой и быстрое обучение. За счет активного исследования, ActiveVLN может быть применен в задачах, включая интерактивное навигационное пространство, автоматизированные системы помощи и даже в сфере робототехники. Также, наша система пре
Abstract
The Vision-and-Language Navigation (VLN) task requires an agent to follow
natural language instructions and navigate through complex environments.
Existing MLLM-based VLN methods primarily rely on imitation learning (IL) and
often use DAgger for post-training to mitigate covariate shift. While
effective, these approaches incur substantial data collection and training
costs. Reinforcement learning (RL) offers a promising alternative. However,
prior VLN RL methods lack dynamic interaction with the environment and depend
on expert trajectories for reward shaping, rather than engaging in open-ended
active exploration. This restricts the agent's ability to discover diverse and
plausible navigation routes. To address these limitations, we propose
ActiveVLN, a VLN framework that explicitly enables active exploration through
multi-turn RL. In the first stage, a small fraction of expert trajectories is
used for IL to bootstrap the agent. In the second stage, the agent iteratively
predicts and executes actions, automatically collects diverse trajectories, and
optimizes multiple rollouts via the GRPO objective. To further improve RL
efficiency, we introduce a dynamic early-stopping strategy to prune long-tail
or likely failed trajectories, along with additional engineering optimizations.
Experiments show that ActiveVLN achieves the largest performance gains over IL
baselines compared to both DAgger-based and prior RL-based post-training
methods, while reaching competitive performance with state-of-the-art
approaches despite using a smaller model. Code and data will be released soon.
Ссылки и действия
Дополнительные ресурсы: