Nav-R1: Reasoning and Navigation in Embodied Scenes

2509.10884v1 cs.RO, cs.CV 2025-09-17

Авторы:

Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang

Резюме на русском

#### Контекст В сфере embodied AI, наиболее вызовущим задачам являются embodied navigation и reasoning. Эти задачи требуют комплексного интегрированного подхода, включающего в себя перцепцию, навигацию, и возможность принимать решения на основе доказательств. Традиционные методы сталкиваются с проблемами несогласованности в решениях, стабильностью принятия решений, а также сложностью в балансировке между долгосрочными семантическими задачами и мгновенными реакциями в реальном времени. Новый подход Nav-R1 предназначен для решения этих проблем, стабилизируя и улучшая общую эффективность в различных сценариях. #### Метод Nav-R1 представляет собой объединение различных современных архитектур и методологий. Он использует Nav-CoT-110K, большую коллекцию шаговых Chains-of-Thought (CoT), для настройки модели. Решение включает три основных компонента: градиентный фреймворк под названием GRPO, который реализует three-reward-system (format, understanding, navigation) для обеспечения структурированности, семантической грандировки и фидельности маршрута. Кроме того, в нем используется Fast-in-Slow Reasoning, которое разделяет долгосрочное семантическое раздувание от быстрых реакций в реальном времени. #### Результаты Данные получены на Nav-CoT-110K и последующих тестированиях. Модель прошла ряд экспериментов на embodied AI benchmarks, включая проверку принципов согласованности, семантической грандировки и маршрутизации. Она показала высокую производительность, получив более 8% улучшение в общей эффективности по сравнению с соревнующими моделями. Тестирование на реальном мобильном роботе показало, что модель работает надежно даже при ограниченных ресурсах на борту. #### Значимость Nav-R1 может использоваться в различных областях, включая автоматизированные системы, интеллектуальные дома, и виртуальные иммерсивные реалия. Он предоставляет значительные преимущества по сравнению с другими моделями, такими как улучшенная стабильность, более высокая точность в навигации и семантическом распознавании. Его применение может положительно сказаться на развитии embodied AI, улучшая возможности роботов в реальном мире. #### Выводы Nav-R1 достигает значительных улучшений в области embodied navigation и reasoning, показывая стабильность и эффективность в различных сценариях. Будущие исследования будут сосредоточены на улучшении моделей Fast-in-Slow Reasoning, а также на исследовании ее применения в более сложных и реалистичных сценариях.

Abstract

Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Nav-R1: Reasoning and Navigation in Embodied Scenes

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация