DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation
2508.09444v1
cs.RO, cs.CV
2025-08-15
Авторы:
Haoxiang Shi, Xiang Deng, Zaijing Li, Gongwei Chen, Yaowei Wang, Liqiang Nie
Резюме на русском
#### Контекст
Vision-Language Navigation в Continuous Environments (VLN-CE) представляет собой задачу, в которой агент должен управляться на основе естественного языка и двигаться через пространство 3D без предварительной структурированности. Эта задача требует сложных способностей, таких как интерпретация текстовых инструкций, предварительное планирование и реакция на непредвиденные обстоятельства. Традиционные подходы часто разделяют задачу на две фазы: генерация возможных точек назначения (waypoints) и последующий планирований движения. Однако данное декомпозиционное решение может приводить к потерям эффективности, ошибкам накопления и сложностям в долгосрочном планировании. Работа предлагает новый подход, который адрессирует эти проблемы, стремясь создать более жизнеспособный и точный метод для VLN-CE.
#### Метод
Предлагаемый подход, называемый DAgger Diffusion Navigation (DifNav), представляет собой единое, оптимизированное политическое решение, объединяющее традиционные два этапа (генерация waypoints и планирования) в одно непрерывное диффузионное решение. DifNav использует условную диффузионную политику для прямого моделирования многомодальных распределений действий в пространстве движения, заменяя необходимость внешнего предиктора точек назначения. Затем метод использует технику DAgger для онлайн-обучения с использованием агрегированных данных о профессиональных траекториях, что улучшает точность и устойчивость. Эта архитектура позволяет агенту лучше рассуждать над долгосрочными задачами, уменьшая ошибки накопления и улучшая модель пространственного разума.
#### Результаты
Для оценки DifNav проводились эксперименты на бенчмарк-датасетах VLN-CE. На противоположных показателях, таких как SPL (Success Rate Weighted by Path Length) и SR (Success Rate), DifNav показал значительное превосходство по сравнению с двухэтапными моделями-стандартами. Без использования внешнего предиктора точек назначения, DifNav достиг отличных результатов в сложных задачах навигации, продемонстрировав высокую надёжность в долгосрочных задачах и оптимальное управление в условиях неоднородных сред. Эти результаты подтверждают значительный прогресс в области VLN-CE.
#### Значимость
Предлагаемый подход имеет широкие возможности применения в свободной трехмерной навигации, видеоиграх, системах-роботах и системах помощи пользователям в пространстве. Он предлагает несколько преимуществ, включая улучшенную точность, уменьшение ошибки накопления и увеличение устойчивости. Данный подход может способствовать развитию различных интеллектуальных систем, улучшая их взаимодействие с пользователем и способность решать задачи в сложных средах.
Abstract
Vision-Language Navigation in Continuous Environments (VLN-CE) requires
agents to follow natural language instructions through free-form 3D spaces.
Existing VLN-CE approaches typically use a two-stage waypoint planning
framework, where a high-level waypoint predictor generates the navigable
waypoints, and then a navigation planner suggests the intermediate goals in the
high-level action space. However, this two-stage decomposition framework
suffers from: (1) global sub-optimization due to the proxy objective in each
stage, and (2) a performance bottleneck caused by the strong reliance on the
quality of the first-stage predicted waypoints. To address these limitations,
we propose DAgger Diffusion Navigation (DifNav), an end-to-end optimized VLN-CE
policy that unifies the traditional two stages, i.e. waypoint generation and
planning, into a single diffusion policy. Notably, DifNav employs a conditional
diffusion policy to directly model multi-modal action distributions over future
actions in continuous navigation space, eliminating the need for a waypoint
predictor while enabling the agent to capture multiple possible
instruction-following behaviors. To address the issues of compounding error in
imitation learning and enhance spatial reasoning in long-horizon navigation
tasks, we employ DAgger for online policy training and expert trajectory
augmentation, and use the aggregated data to further fine-tune the policy. This
approach significantly improves the policy's robustness and its ability to
recover from error states. Extensive experiments on benchmark datasets
demonstrate that, even without a waypoint predictor, the proposed method
substantially outperforms previous state-of-the-art two-stage waypoint-based
models in terms of navigation performance. Our code is available at:
https://github.com/Tokishx/DifNav.
Ссылки и действия
Дополнительные ресурсы: