#### Контекст
Vision-and-Language Navigation (VLN) — это задача, в которой агент должен следовать естественным языковым инструкциям и перемещаться по сложным средам. Эта задача требует сильной интеграции визуальной и языковой информации, а также динамической навигации в условиях неопределенности. Традиционно, методы на основе моделей значительного языкового обучения (MLLM) полагаются на имитационное обучение (IL) и, часто, на пост-тренировочные методы типа DAgger для компенсации проблемы ковариатного отклонения. Хотя эффективны, эти подходы требуют больших затрат на сбор данных и обучения. Альтернативным подходом является использование реинforcement learning (RL), но существующие VLN RL-методы часто ограничены динамическим взаимодействием с серым зоной и приходят к ускорению значительного балла с помощью руководств экспертов. Наша мотивация заключается в разработке метода, который бы стимулировал динамическое и активное исследование среды, увеличивая производительность и гибкость в VLN.
#### Метод
Мы предлагаем ActiveVLN — рамку для VLN, которая использует многоразовый RL для активного исследования. В первой стадии, маленькая доля экспертных траекторий используется для имитационного обучения, чтобы инициализировать агента. Во второй стадии, агент динамически предсказывает и выполняет действия, автоматически собирает разнообразные траектории, и оптимизирует несколько rollouts с помощью объективного оптимизатора GRPO. Для повышения эффективности RL, мы внедрили динамическую стратегию раннего остановка, чтобы урезать длинные траектории, которые могут привести к неудачам. Эти дополнительные оптимизации позволяют уменьшить время обучения и улучшить качество результатов.
#### Результаты
Мы провели эксперименты на стандартных данных VLN, таких как R2R и Room-to-Room. Наша система ActiveVLN показала существенное улучшение по сравнению с IL-базированными методами, в том числе с DAgger-based подходами. Мы также достигли состязательной производительности с современными RL-методами, несмотря на то, что использовали меньшую модель. Эксперименты показали, что ActiveVLN эффективно использует активное исследование, чтобы открыть различные и достоверные маршруты, которые могут быть пропущены статическими подходами.
#### Значимость
Наш подход может быть применен в различных сценариях, где требуется динамическое взаимодействие с средой и быстрое обучение. За счет активного исследования, ActiveVLN может быть применен в задачах, включая интерактивное навигационное пространство, автоматизированные системы помощи и даже в сфере робототехники. Также, наша система пре