MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming

2508.02549v1 cs.CV, cs.RO 2025-08-09
Авторы:

Shuo Wang, Yongcai Wang, Wanting Li, Yucheng Wang, Maiyue Chen, Kaihui Wang, Zhizhong Su, Xudong Cai, Yeying Jin, Deying Li, Zhaoxin Fan

Резюме на русском

**Резюме** В Vision-Language Navigation (VLN) задачах широко используются panoramic RGB-D сенсоры для построения точных моделей среды. Однако, эти сенсоры требуют высоких затрат и не всегда доступны в реальных условиях. Недавние модели на основе Vision-Language Action (VLA) построены на monocular RGB входах, но всё ещё отстают от panoramic-based алгоритмов по эффективности. Мы предлагаем MonoDream — легковесную VLA-фреймворк с Unified Navigation Representation (UNR), которая объединяет в себе навигационные визуальные признаки (например, глобальный слой, глубина, футуристические сигналы) и языково-ориентированные действия. Для того, чтобы обучить UNR, MonoDream вводит Latent Panoramic Dreaming (LPD) задачи, которые позволяют предсказать latent features panoramic RGB-D наблюдений в текущих и будущих шагах, используя только monocular информацию. Наши эксперименты показали, что MonoDream повышает производительность monocular VLN на нескольких бенчмарках, существенно сокращая разрыв с panoramic-based моделями.

Abstract

Vision-Language Navigation (VLN) tasks often leverage panoramic RGB and depth inputs to provide rich spatial cues for action planning, but these sensors can be costly or less accessible in real-world deployments. Recent approaches based on Vision-Language Action (VLA) models achieve strong results with monocular input, yet they still lag behind methods using panoramic RGB-D information. We present MonoDream, a lightweight VLA framework that enables monocular agents to learn a Unified Navigation Representation (UNR). This shared feature representation jointly aligns navigation-relevant visual semantics (e.g., global layout, depth, and future cues) and language-grounded action intent, enabling more reliable action prediction. MonoDream further introduces Latent Panoramic Dreaming (LPD) tasks to supervise the UNR, which train the model to predict latent features of panoramic RGB and depth observations at both current and future steps based on only monocular input. Experiments on multiple VLN benchmarks show that MonoDream consistently improves monocular navigation performance and significantly narrows the gap with panoramic-based agents.

Ссылки и действия