RynnEC: Bringing MLLMs into Embodied World

2508.14160v1 cs.CV, cs.AI, cs.RO 2025-08-22

Авторы:

Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

Резюме на русском

#### Контекст Область исследования, связанная с embodied cognition, нацелена на развитие технологий, позволяющих системам понимать и взаимодействовать с физическим миром на более точном уровне. Однако существуют значительные проблемы в этой области, включая недостаточность данных для обучения моделей, ограниченные возможности понимания видеопоследовательностей и недостаточное развитие общих решений для обеспечения гранулярности и точности взаимодействия. Мотивация для этого исследования заключается в развитии моделей, которые могут эффективно обрабатывать видеоданные, обеспечивая глубокое понимание физического мира и поддерживая тонко настроенные взаимодействия. #### Метод RynnEC является видеомодульным большой языковой моделью, ориентированной на embodied cognition. Основной архитектурой является общего назначения модель видения и языка, дополненная региональным кодировщиком и масковым декодером. Эти компоненты позволяют модели взаимодействовать с видео на уровне регионов, обеспечивая гранулярность в обработке. Метод использует готовую модель видения и языка, улучшая ее для обработки видео с точки зрения регионов. Процесс обучения включает адаптацию модели к задачам, таким как обнаружение свойств объектов, сегментация объектов и пространственное рассуждение, используя новые данные, полученные с помощью предложенного пайплайна для генерирования 3D-данных. #### Результаты Результаты показывают, что RynnEC превосходит существующие модели по метрикам, таким как Precision, Recall и F1-score, в задачах, таких как обнаружение свойств объектов, сегментация и пространственное рассуждение. Эксперименты проводились на собственном RynnEC-Bench, специально разработанном для оценки embodied cognition. Эти результаты доказывают, что RynnEC не только эффективно обрабатывает видеоданные, но и может совершенствоваться в задачах, требующих тонкой обработки сложных визуальных и пространственных сигналов. #### Значимость Результаты RynnEC имеют широкие области применения, включая области, где требуется точная обработка видеоданных, такие как видеонаблюдение, интерактивные системы, проектирование интеллектуальных агентов. Одним из ключевых преимуществ является улучшение точности взаимодействия с физическим миром, что может повлиять на развитие робототехники, AR/VR и систем контроля. Благодаря предлагаемому подходу, модель может стать основой для развития общих центров обработки информации для embodied agents, что способствует расширению возможностей в различных областях. #### Выводы RynnEC достигает состояния лидера в области embodied cognition, демонстрируя свою эффективность в трех ключевых задачах. Она обеспечивает то

Abstract

We introduce RynnEC, a video multimodal large language model designed for embodied cognition. Built upon a general-purpose vision-language foundation model, RynnEC incorporates a region encoder and a mask decoder, enabling flexible region-level video interaction. Despite its compact architecture, RynnEC achieves state-of-the-art performance in object property understanding, object segmentation, and spatial reasoning. Conceptually, it offers a region-centric video paradigm for the brain of embodied agents, providing fine-grained perception of the physical world and enabling more precise interactions. To mitigate the scarcity of annotated 3D datasets, we propose an egocentric video based pipeline for generating embodied cognition data. Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for evaluating embodied cognitive capabilities. We anticipate that RynnEC will advance the development of general-purpose cognitive cores for embodied agents and facilitate generalization across diverse embodied tasks. The code, model checkpoints, and benchmark are available at: https://github.com/alibaba-damo-academy/RynnEC

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RynnEC: Bringing MLLMs into Embodied World

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Real-Time On-the-Go Annotation Framework Using YOLO for Automated Dataset Genera...

MTR-VP: Towards End-to-End Trajectory Planning through Context-Driven Image Enco...

Describe Anything Anywhere At Any Moment

Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embod...

SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizo...

Навигация