CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

2508.10416v1 cs.RO, cs.AI, cs.CL, cs.CV 2025-08-16
Авторы:

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

Резюме на русском

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного интеллекта. Однако существующие модели часто спотыкаются при выполнении инструкций, теряя правильный путь. У них часто недостаточно силы для корректировки ошибок, что приводит к неточности или полной неуспешности выполнения. В этой статье мы рассматриваем эту проблему, сформулируя ее как центральную задачу, и предлагаем новую модель, которая может самостоятельно исправляться в процессе работы. #### Метод Мы предлагаем **Self-correction Flywheel** — пост-тренировочный подход, использующий ошибки модели в качестве ресурса. Данный подход включает в себя методы для определения и анализа ошибочных траекторий модели, а также механизмы для генерирования самокорректирующихся данных, которые улучшают модель при последовательных циклах обучения. Мы разработали модель CorrectNav, основанную на этих принципах. Модель использует монохромные RGB-изображения и получает инструкции на языке, выполняя целевую навигационную задачу. #### Результаты Мы провели эксперименты на двух бенчмарках: R2R-CE и RxR-CE. Наши эксперименты показали, что CorrectNav показывает новые рекорды в успешном навигационном выполнении — 65.1% на R2R-CE и 69.3% на RxR-CE. Эти результаты превосходят предыдущие модели на 8.2% и 16.4% соответственно. Также мы проверили модель на реальном роботе в различных внутренних и внешних средах, где она продемонстрировала значительные достижения в корректировке ошибок, избегании динамических препятствий и долгосрочном следовании инструкциям. #### Значимость Наша модель может быть использована в различных приложениях, таких как управление роботами, автономное перемещение транспортных средств и визуально-языковые приложения. Преимущества включают высокую точность, долгосрочную навигацию и способность самостоятельно корректироваться во время работы. Это может повлиять на развитие более надежных и удобных систем навигации в различных сферах. #### Выводы Мы демонстрируем силу нашего подхода в моделировании VLA и показываем, что он может стать основой для развития будущих моделей. Будущие исследования будут сфокусированы на расширении модели CorrectNav для более сложных и полимодальных задач навигации, а также на изучении ее поведения в более сложных и реальных средах.

Abstract

Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a method to identify deviations in these error trajectories and devised innovative techniques to automatically generate self-correction data for perception and action. These self-correction data serve as fuel to power the model's continued training. The brilliance of our paradigm is revealed when we re-evaluate the model on the training set, uncovering new error trajectories. At this time, the self-correction flywheel begins to spin. Through multiple flywheel iterations, we progressively enhance our monocular RGB-based VLA navigation model CorrectNav. Experiments on R2R-CE and RxR-CE benchmarks show CorrectNav achieves new state-of-the-art success rates of 65.1% and 69.3%, surpassing prior best VLA navigation models by 8.2% and 16.4%. Real robot tests in various indoor and outdoor environments demonstrate \method's superior capability of error correction, dynamic obstacle avoidance, and long instruction following.

Ссылки и действия

Связанные статьи

DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Lang...

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для об...

2025-09-17

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment...

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для...

2025-09-15

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment...

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации...

2025-09-13