Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

2508.07642v1 cs.AI, cs.CL, cs.CV 2025-08-13

Авторы:

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

Резюме на русском

## Контекст Vision-and-Language Navigation (VLN) представляет собой сложное задание, требующее систем извлечения смысла из естественных языковых инструкций и эффективной навигации в развернутых 3D-средах. Несмотря на то, что последние достижения в области VLN были подспорьем широкомасштабной предобученности и расширению данных, существуют значительные проблемы с общую стойкостью, особенно когда требуется повышенное пространственное или временное разумление. Например, существующие агенты часто падают при визуальной и языковой неоднородности, которую представляют незнакомые среды и нестандартные инструкции. Мотивацией для нас является создание более устойчивого и гибкого подхода, который может быть применен в нестандартных сценариях. ## Метод Мы предлагаем SkillNav, модульную архитектуру, включающую в себя структурированные, навыково-ориентированные принципы для взаимодействия с 3D-средами. SkillNav декомпозирует навигацию на независимые атомарные навыки, такие как "Перемещение по высоте", "Распознавание областей и регионов", и "Остановка и пауза". Каждый из этих навыков выполняется специализированным под-агентом. Для того чтобы обеспечить динамическое выбор наиболее подходящего под-агента во время выполнения, мы предложили новый тип Vision-Language Model (VLM)-based router, который используется для множественных действий. Этот модуль, используя визуальные сенсоры и языковые команды, выбирает наиболее подходящий под-агент, ориентируясь на под-цели и историю действий. Основная идея заключается в структурированной модели, которая позволяет роутеру гибко реагировать на изменения в среде. ## Результаты Мы провели эксперименты на двух бенчмарках: R2R и GSA-R2R. На R2R, SkillNav достиг нового состояния технологии с повышенным уровнем производительности в задачах навигации по сложным 3D-средам. На GSA-R2R, что включает нестандартные стили инструкций и неизвестные среды, SkillNav стабильно показал свою способность к генерализации. Мы также провели анализ вариативности наших моделей, продемонстрировав улучшение отдельных навыков и их взаимодействия, что включает в себя наблюдения о том, как каждый под-агент был влиятелен на общую систему. ## Значимость SkillNav может быть применен в сферах, требующих действий в сложных средах, таких как управление роботами, виртуальная реальность и системы помощи при навигации. Наши результаты свидетельствуют о значительных преимуществах, таких как увеличение устойчивости к неизвестным средам, повышение точности распознавания инструкций и упрощение моделей для требовательных задач. Мы также показали, что наш

Abstract

Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into Transformer-based VLN agents. Our method decomposes navigation into a set of interpretable atomic skills (e.g., Vertical Movement, Area and Region Identification, Stop and Pause), each handled by a specialized agent. We then introduce a novel zero-shot Vision-Language Model (VLM)-based router, which dynamically selects the most suitable agent at each time step by aligning sub-goals with visual observations and historical actions. SkillNav achieves a new state-of-the-art performance on the R2R benchmark and demonstrates strong generalization to the GSA-R2R benchmark that includes novel instruction styles and unseen environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference F...

Fara-7B: An Efficient Agentic Model for Computer Use

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger...

AI for Service: Proactive Assistance with AI Glasses

Навигация