DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation

2508.09444v1 cs.RO, cs.CV 2025-08-15

Авторы:

Haoxiang Shi, Xiang Deng, Zaijing Li, Gongwei Chen, Yaowei Wang, Liqiang Nie

Резюме на русском

#### Контекст Vision-Language Navigation в Continuous Environments (VLN-CE) представляет собой задачу, в которой агент должен управляться на основе естественного языка и двигаться через пространство 3D без предварительной структурированности. Эта задача требует сложных способностей, таких как интерпретация текстовых инструкций, предварительное планирование и реакция на непредвиденные обстоятельства. Традиционные подходы часто разделяют задачу на две фазы: генерация возможных точек назначения (waypoints) и последующий планирований движения. Однако данное декомпозиционное решение может приводить к потерям эффективности, ошибкам накопления и сложностям в долгосрочном планировании. Работа предлагает новый подход, который адрессирует эти проблемы, стремясь создать более жизнеспособный и точный метод для VLN-CE. #### Метод Предлагаемый подход, называемый DAgger Diffusion Navigation (DifNav), представляет собой единое, оптимизированное политическое решение, объединяющее традиционные два этапа (генерация waypoints и планирования) в одно непрерывное диффузионное решение. DifNav использует условную диффузионную политику для прямого моделирования многомодальных распределений действий в пространстве движения, заменяя необходимость внешнего предиктора точек назначения. Затем метод использует технику DAgger для онлайн-обучения с использованием агрегированных данных о профессиональных траекториях, что улучшает точность и устойчивость. Эта архитектура позволяет агенту лучше рассуждать над долгосрочными задачами, уменьшая ошибки накопления и улучшая модель пространственного разума. #### Результаты Для оценки DifNav проводились эксперименты на бенчмарк-датасетах VLN-CE. На противоположных показателях, таких как SPL (Success Rate Weighted by Path Length) и SR (Success Rate), DifNav показал значительное превосходство по сравнению с двухэтапными моделями-стандартами. Без использования внешнего предиктора точек назначения, DifNav достиг отличных результатов в сложных задачах навигации, продемонстрировав высокую надёжность в долгосрочных задачах и оптимальное управление в условиях неоднородных сред. Эти результаты подтверждают значительный прогресс в области VLN-CE. #### Значимость Предлагаемый подход имеет широкие возможности применения в свободной трехмерной навигации, видеоиграх, системах-роботах и системах помощи пользователям в пространстве. Он предлагает несколько преимуществ, включая улучшенную точность, уменьшение ошибки накопления и увеличение устойчивости. Данный подход может способствовать развитию различных интеллектуальных систем, улучшая их взаимодействие с пользователем и способность решать задачи в сложных средах.

Abstract

Vision-Language Navigation in Continuous Environments (VLN-CE) requires agents to follow natural language instructions through free-form 3D spaces. Existing VLN-CE approaches typically use a two-stage waypoint planning framework, where a high-level waypoint predictor generates the navigable waypoints, and then a navigation planner suggests the intermediate goals in the high-level action space. However, this two-stage decomposition framework suffers from: (1) global sub-optimization due to the proxy objective in each stage, and (2) a performance bottleneck caused by the strong reliance on the quality of the first-stage predicted waypoints. To address these limitations, we propose DAgger Diffusion Navigation (DifNav), an end-to-end optimized VLN-CE policy that unifies the traditional two stages, i.e. waypoint generation and planning, into a single diffusion policy. Notably, DifNav employs a conditional diffusion policy to directly model multi-modal action distributions over future actions in continuous navigation space, eliminating the need for a waypoint predictor while enabling the agent to capture multiple possible instruction-following behaviors. To address the issues of compounding error in imitation learning and enhance spatial reasoning in long-horizon navigation tasks, we employ DAgger for online policy training and expert trajectory augmentation, and use the aggregated data to further fine-tune the policy. This approach significantly improves the policy's robustness and its ability to recover from error states. Extensive experiments on benchmark datasets demonstrate that, even without a waypoint predictor, the proposed method substantially outperforms previous state-of-the-art two-stage waypoint-based models in terms of navigation performance. Our code is available at: https://github.com/Tokishx/DifNav.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация