OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
2509.09332v1
cs.RO, cs.AI, cs.CL, cs.CV
2025-09-13
Авторы:
Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
Резюме на русском
#### Контекст
Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации сложных сценариев может вдохновить развитие объёмных моделей рассуждения. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами.
#### Метод
Методика OmniEVA включает в себя два ключевых компонента: Task-Adaptive 3D Grounding и Embodiment-Aware Reasoning. Task-Adaptive 3D Grounding использует gated router для регулирования 3D-фузирования, что позволяет выполнять специфический контекстный 3D-grounding для разных обстановок. Embodiment-Aware Reasoning оптимизирует решения планирования, включая в рассуждение не только цели, но и физические ограничения реальных роботов.
#### Результаты
Результаты показали, что OmniEVA увеличивает скорость выполнения задач, повышает точность решений и способствует более эффективному использованию ресурсов. Измерения проводились в различных обстановках, в том числе и сложных.
#### Значимость
OmniEVA может быть применено в сферах, требующих обеспечения эффективности и безопасности в работе роботов. Он повышает качество выполнения единичных задач и упрощает работу в классах задач.
#### Выводы
Работа OmniEVA демонстрирует роль объёмных моделей в развитии обзорных моделей рассуждения в области робототехники. Будущие исследования будут фокусироваться на улучшении модели за счёт добавления дополнительных параметров и улучшения её чувствительности.
Abstract
Recent advances in multimodal large language models (MLLMs) have opened new
opportunities for embodied intelligence, enabling multimodal understanding,
reasoning, and interaction, as well as continuous spatial decision-making.
Nevertheless, current MLLM-based embodied systems face two critical
limitations. First, Geometric Adaptability Gap: models trained solely on 2D
inputs or with hard-coded 3D geometry injection suffer from either insufficient
spatial information or restricted 2D generalization, leading to poor
adaptability across tasks with diverse spatial demands. Second, Embodiment
Constraint Gap: prior work often neglects the physical constraints and
capacities of real robots, resulting in task plans that are theoretically valid
but practically infeasible.To address these gaps, we introduce OmniEVA -- an
embodied versatile planner that enables advanced embodied reasoning and task
planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding
mechanism, which introduces a gated router to perform explicit selective
regulation of 3D fusion based on contextual requirements, enabling
context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware
Reasoning framework that jointly incorporates task goals and embodiment
constraints into the reasoning loop, resulting in planning decisions that are
both goal-directed and executable. Extensive experimental results demonstrate
that OmniEVA not only achieves state-of-the-art general embodied reasoning
performance, but also exhibits a strong ability across a wide range of
downstream scenarios. Evaluations of a suite of proposed embodied benchmarks,
including both primitive and composite tasks, confirm its robust and versatile
planning capabilities. Project page: https://omnieva.github.io