GoViG: Goal-Conditioned Visual Navigation Instruction Generation
2508.09547v1
cs.CV, cs.AI
2025-08-15
Авторы:
Fengyi Wu, Yifei Dong, Zhi-Qi Cheng, Yilong Dai, Guangyu Chen, Hang Wang, Qi Dai, Alexander G. Hauptmann
Резюме на русском
#### Контекст
В настоящее время активно развиваются исследования в области визуального навигационного поведения роботов и систем самообучения. Одна из основных проблем состоит в том, что существующие подходы часто зависят от структурированных входных данных, таких как семантические аннотации или с ENV-карт, что ограничивает их применение в неструктурированных и неизвестных средах. Это создает необходимость развития методов, основанных на исключительной использованием богатых egocentric visual data, чтобы обеспечить более сильный потенциал адаптации и обучения в таких условиях. Исследование GoViG (Goal-Conditioned Visual Navigation Instruction Generation) нацелено на развитие методов для автоматического генерирования контекстуально точных и языковых нормативных навигационных инструкций только на основе raw egocentric visual data.
#### Метод
Для решения этой задачи предлагается двухэтапный подход: (1) **визуальное прогнозирование** — предсказание визуальных состояний, которые находятся между исходным и конечным визуальными состояниями, и (2) **генерация инструкций** — генерирование понятных языковых инструкций на основе наблюдаемых и прогнозируемых визуальных данных. Эти две этапы объединены в авто регрессионную модель многомодального языкового моделирования, которая настраивается на основе специальных задач для обеспечения точности пространства и языковой ясности. Также введены два многомодальных подхода к логической расчету: (1) **One-pass Reasoning**, который предполагает последовательные логические выводы, и (2) **Interleaved Reasoning**, который использует интерактивные взаимодействия между прогнозированием и генерацией.
#### Результаты
Проведены эксперименты с использованием новой R2R-Goal-датасета, включающей в себя синтетические и реальные траектории. Наблюдается значительное улучшение уровня BLEU-4 и CIDEr по сравнению с текущими стандартами. Также продемонстрирована высокая степень общей генерализации в различных доменах. Эти результаты показали, что GoViG не только улучшает точность генерирования инструкций, но и обеспечивает более высокую степень адаптации к неизвестным и неструктурированным средам.
#### Значимость
Предложенная методология может быть применима в различных ситуациях, включая автоматизированное управление роботами, видеопомощь и самостоятельное взаимодействие с окружением. Основное преимущество GoViG заключается в исключении необходимости структурированных внешних данных, что делает его более универсальным и эффективным в сравнении с другими подходами. В будущем планируется расширить широту данных для обучения и сделать модель еще более точной и доступной для различных задач
Abstract
We introduce Goal-Conditioned Visual Navigation Instruction Generation
(GoViG), a new task that aims to autonomously generate precise and contextually
coherent navigation instructions solely from egocentric visual observations of
initial and goal states. Unlike conventional approaches that rely on structured
inputs such as semantic annotations or environmental maps, GoViG exclusively
leverages raw egocentric visual data, substantially improving its adaptability
to unseen and unstructured environments. Our method addresses this task by
decomposing it into two interconnected subtasks: (1) visual forecasting, which
predicts intermediate visual states bridging the initial and goal views; and
(2) instruction generation, which synthesizes linguistically coherent
instructions grounded in both observed and anticipated visuals. These subtasks
are integrated within an autoregressive multimodal large language model trained
with tailored objectives to ensure spatial accuracy and linguistic clarity.
Furthermore, we introduce two complementary multimodal reasoning strategies,
one-pass and interleaved reasoning, to mimic incremental human cognitive
processes during navigation. To evaluate our method, we propose the R2R-Goal
dataset, combining diverse synthetic and real-world trajectories. Empirical
results demonstrate significant improvements over state-of-the-art methods,
achieving superior BLEU-4 and CIDEr scores along with robust cross-domain
generalization.
Ссылки и действия
Дополнительные ресурсы: