OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2509.09332v2 cs.RO, cs.AI, cs.CL, cs.CV 2025-09-15
Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

Резюме на русском

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для развития обеспечивает моделей, обладающих способностью к объединению разных модальностей, выполнять логическое рассуждение и взаимодействовать в реальном мире. Тем не менее, существуют две ключевые проблемы в существующих MLLM-ориентированных обеспеченных системах. Во-первых, **Geometric Adaptability Gap**: модели, обученные только на 2D-входных данных или жестко инжектированных с 3D-геометрией, либо не могут достаточно интеллектуально справляться с пространственными задачами, либо ограничиваются лишь 2D-ограниченным генерализированным подходом. Во-вторых, **Embodiment Constraint Gap**: существующие системы часто игнорируют практические ограничения реальных роботов, что приводит к планам, которые теоретически могут быть верны, но невыполнимы в реальности. Данная работа предлагает решение этих проблем через разработку OmniEVA — универсального планировщика, который включает в себя развитые инновационные подходы к обеспеченному планированию. ## Метод OmniEVA основывается на двух ключевых инновационных механизмах: 1. **Task-Adaptive 3D Grounding**: Этот механизм включает в себя гейтед рутор, который регулирует селективное включение 3D-данных в зависимости от контекста. Это позволяет модели сделать контекстуально-адаптивные 3D-определения, делая ее более универсальной для различных задач. 2. **Embodiment-Aware Reasoning**: Рамочная модель включает в себя как цели задачи, так и ограничения физических возможностей робота в процессе логического рассуждения. Это приводит к решениям, которые как придерживаются целей, так и выполнены в соответствии с техническими возможностями робота. ## Результаты Для оценки OmniEVA, авторы проводили ряд экспериментов на имитационных и реальных средах. Были использованы следующие наборы данных: - **Task-Adaptive 3D Grounding**: Модель продемонстрировала улучшения в задачах, требующих высокого пространственного разума, таких как перемещение предметов и обнаружение. - **Embodiment-Aware Reasoning**: Анализ показал, что OmniEVA превосходит конкурентные модели в ситуациях, где требуется жесткое соблюдение физических ограничений, таких как ограничения на роботов в реальной зоне. В результате, OmniEVA показала значительные улучшения в общем embodied reasoning и демонстрирует высокую гибкость при решении различных задач. ## Значимость OmniEVA имеет широкое применение в различных областях: - Робототехника: Она может быть использована для планирования поведения роботов в различных пространственных конфигурациях. - Домашний ассистент: Модель может по

Abstract

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible. To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io

Ссылки и действия

Связанные статьи

DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Lang...

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для об...

2025-09-17

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment...

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации...

2025-09-13

CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation ...

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного...

2025-08-16