GoViG: Goal-Conditioned Visual Navigation Instruction Generation

2508.09547v1 cs.CV, cs.AI 2025-08-15
Авторы:

Fengyi Wu, Yifei Dong, Zhi-Qi Cheng, Yilong Dai, Guangyu Chen, Hang Wang, Qi Dai, Alexander G. Hauptmann

Резюме на русском

#### Контекст В настоящее время активно развиваются исследования в области визуального навигационного поведения роботов и систем самообучения. Одна из основных проблем состоит в том, что существующие подходы часто зависят от структурированных входных данных, таких как семантические аннотации или с ENV-карт, что ограничивает их применение в неструктурированных и неизвестных средах. Это создает необходимость развития методов, основанных на исключительной использованием богатых egocentric visual data, чтобы обеспечить более сильный потенциал адаптации и обучения в таких условиях. Исследование GoViG (Goal-Conditioned Visual Navigation Instruction Generation) нацелено на развитие методов для автоматического генерирования контекстуально точных и языковых нормативных навигационных инструкций только на основе raw egocentric visual data. #### Метод Для решения этой задачи предлагается двухэтапный подход: (1) **визуальное прогнозирование** — предсказание визуальных состояний, которые находятся между исходным и конечным визуальными состояниями, и (2) **генерация инструкций** — генерирование понятных языковых инструкций на основе наблюдаемых и прогнозируемых визуальных данных. Эти две этапы объединены в авто регрессионную модель многомодального языкового моделирования, которая настраивается на основе специальных задач для обеспечения точности пространства и языковой ясности. Также введены два многомодальных подхода к логической расчету: (1) **One-pass Reasoning**, который предполагает последовательные логические выводы, и (2) **Interleaved Reasoning**, который использует интерактивные взаимодействия между прогнозированием и генерацией. #### Результаты Проведены эксперименты с использованием новой R2R-Goal-датасета, включающей в себя синтетические и реальные траектории. Наблюдается значительное улучшение уровня BLEU-4 и CIDEr по сравнению с текущими стандартами. Также продемонстрирована высокая степень общей генерализации в различных доменах. Эти результаты показали, что GoViG не только улучшает точность генерирования инструкций, но и обеспечивает более высокую степень адаптации к неизвестным и неструктурированным средам. #### Значимость Предложенная методология может быть применима в различных ситуациях, включая автоматизированное управление роботами, видеопомощь и самостоятельное взаимодействие с окружением. Основное преимущество GoViG заключается в исключении необходимости структурированных внешних данных, что делает его более универсальным и эффективным в сравнении с другими подходами. В будущем планируется расширить широту данных для обучения и сделать модель еще более точной и доступной для различных задач

Abstract

We introduce Goal-Conditioned Visual Navigation Instruction Generation (GoViG), a new task that aims to autonomously generate precise and contextually coherent navigation instructions solely from egocentric visual observations of initial and goal states. Unlike conventional approaches that rely on structured inputs such as semantic annotations or environmental maps, GoViG exclusively leverages raw egocentric visual data, substantially improving its adaptability to unseen and unstructured environments. Our method addresses this task by decomposing it into two interconnected subtasks: (1) visual forecasting, which predicts intermediate visual states bridging the initial and goal views; and (2) instruction generation, which synthesizes linguistically coherent instructions grounded in both observed and anticipated visuals. These subtasks are integrated within an autoregressive multimodal large language model trained with tailored objectives to ensure spatial accuracy and linguistic clarity. Furthermore, we introduce two complementary multimodal reasoning strategies, one-pass and interleaved reasoning, to mimic incremental human cognitive processes during navigation. To evaluate our method, we propose the R2R-Goal dataset, combining diverse synthetic and real-world trajectories. Empirical results demonstrate significant improvements over state-of-the-art methods, achieving superior BLEU-4 and CIDEr scores along with robust cross-domain generalization.

Ссылки и действия