EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

2508.21112v1 cs.RO, cs.AI 2025-09-02

Авторы:

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

Резюме на русском

## Контекст Область исследования рассматривает проблему развития общего-целевых роботов с интеллектуальными возможностями, полностью адаптированных к работе в сложных, многомодальных средах. На данный момент существуют модели, которые объединяют визуальные, текстовые и действительные данные (Vision-Language-Action, VLA), чтобы обеспечить контроль роботов в различных задачах. Однако они до сих пор не достигли уровня гибкости и универсальности, который можно наблюдать у человека. Это ограничение вызвано отсутствием моделей, которые могут эффективно обрабатывать взаимодействия между визуальными, текстовыми и действительными сигналами в реальном времени. Поэтому введено новое подходящее исследование, которое стремится решить эту проблему и достичь этапов, близких к человеческим возможностям. ## Метод Разработка EO-Robotics базируется на двух основных ключевых составляющих. Во-первых, это единая архитектура, которая обрабатывает разных типов входных данных, такими как изображения, текст, видео и действия, независимо от их формата. Во-вторых, это огромный и качественно высокодостоверный набор данных EO-Data1.5M, содержащий более 1.5 миллиона примеров, специально разработанный для тренировки модели на объединенном понимании визуальных, текстовых и действительных сигналов. Методология заключается в использовании синергии между декодированием последовательностей и методом денойсинга потоков, чтобы обеспечить эффективную генерацию действий и объединенное понимание в кадре эмбодьд системы. ## Результаты Для тестирования данной модели были проведены несколько экспериментов на различных длинных задачах, со сложными манипуляциями и объектами в разных средах. Модель EO-1 продемонстрировала высокую точность и гибкость в решении задач, превосходя существующие модели во времени реакции и точности выполнения задач. В частности, модель показала улучшенную возможность объединения многомодальных сигналов (визуальных и текстовых) и гибкость в гибком поведении в открытых средах. Эти результаты были подтверждены экспериментально, показав высокую производительность в различных испытаниях. ## Значимость Данная работа применима к многим областям, где требуется умение обрабатывать и интерактивно взаимодействовать с многомодальными данными, таких как автоматизация производственных процессов, управление роботами в частных домах или сельскохозяйственных работах. Особенно будет цениться в сфере создания общего-целевых моделей, которые могут осуществлять контроль над телом и сенсорными сигналами, а также решать задачи реального мира в реальном времени. Основно

Abstract

The human ability to seamlessly perform multimodal reasoning and physical interaction in the open world is a core goal for general-purpose embodied intelligent systems. Recent vision-language-action (VLA) models, which are co-trained on large-scale robot and visual-text data, have demonstrated notable progress in general robot control. However, they still fail to achieve human-level flexibility in interleaved reasoning and interaction. In this work, introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is a unified embodied foundation model that achieves superior performance in multimodal embodied reasoning and robot control through interleaved vision-text-action pre-training. The development of EO-1 is based on two key pillars: (i) a unified architecture that processes multimodal inputs indiscriminately (image, text, video, and action), and (ii) a massive, high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains over 1.5 million samples with emphasis on interleaved vision-text-action comprehension. EO-1 is trained through synergies between auto-regressive decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot action generation and multimodal embodied reasoning. Extensive experiments demonstrate the effectiveness of interleaved vision-text-action learning for open-world understanding and generalization, validated through a variety of long-horizon, dexterous manipulation tasks across multiple embodiments. This paper details the architecture of EO-1, the data construction strategy of EO-Data1.5M, and the training methodology, offering valuable insights for developing advanced embodied foundation models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация