EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
2508.21112v1
cs.RO, cs.AI
2025-09-02
Авторы:
Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
Резюме на русском
## Контекст
Область исследования рассматривает проблему развития общего-целевых роботов с интеллектуальными возможностями, полностью адаптированных к работе в сложных, многомодальных средах. На данный момент существуют модели, которые объединяют визуальные, текстовые и действительные данные (Vision-Language-Action, VLA), чтобы обеспечить контроль роботов в различных задачах. Однако они до сих пор не достигли уровня гибкости и универсальности, который можно наблюдать у человека. Это ограничение вызвано отсутствием моделей, которые могут эффективно обрабатывать взаимодействия между визуальными, текстовыми и действительными сигналами в реальном времени. Поэтому введено новое подходящее исследование, которое стремится решить эту проблему и достичь этапов, близких к человеческим возможностям.
## Метод
Разработка EO-Robotics базируется на двух основных ключевых составляющих. Во-первых, это единая архитектура, которая обрабатывает разных типов входных данных, такими как изображения, текст, видео и действия, независимо от их формата. Во-вторых, это огромный и качественно высокодостоверный набор данных EO-Data1.5M, содержащий более 1.5 миллиона примеров, специально разработанный для тренировки модели на объединенном понимании визуальных, текстовых и действительных сигналов. Методология заключается в использовании синергии между декодированием последовательностей и методом денойсинга потоков, чтобы обеспечить эффективную генерацию действий и объединенное понимание в кадре эмбодьд системы.
## Результаты
Для тестирования данной модели были проведены несколько экспериментов на различных длинных задачах, со сложными манипуляциями и объектами в разных средах. Модель EO-1 продемонстрировала высокую точность и гибкость в решении задач, превосходя существующие модели во времени реакции и точности выполнения задач. В частности, модель показала улучшенную возможность объединения многомодальных сигналов (визуальных и текстовых) и гибкость в гибком поведении в открытых средах. Эти результаты были подтверждены экспериментально, показав высокую производительность в различных испытаниях.
## Значимость
Данная работа применима к многим областям, где требуется умение обрабатывать и интерактивно взаимодействовать с многомодальными данными, таких как автоматизация производственных процессов, управление роботами в частных домах или сельскохозяйственных работах. Особенно будет цениться в сфере создания общего-целевых моделей, которые могут осуществлять контроль над телом и сенсорными сигналами, а также решать задачи реального мира в реальном времени. Основно
Abstract
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.
Ссылки и действия
Дополнительные ресурсы: